数据仓库
-
Hive创建外部表详细步骤
① 在hive中执行HDFS命令:创建/data目录 hive命令终端输入: hive> dfs -mkdir -p /data; 或者在linux命令终端输入: hdfs …
-
Python量化投资——金融数据最佳实践: 使用qteasy+tushare搭建本地金融数据仓库并定期批量更新【附源码】
用`qteasy`+`tushare`实现金融数据本地化存储及访问 目的 什么是`qteasy` 什么是`tushare` 为什么要本地化 使用qteasy创建本地数据仓库 qte…
-
【文末送书】AI时代数据的重要性
欢迎关注博主 Mindtechnist 或加入【智能科技社区】一起学习和分享Linux、C、C++、Python、Matlab,机器人运动控制、多机器人协作,智能优化算法,滤波估计…
-
【SQL应知应会】表分区(二)• Oracle版
欢迎来到爱书不爱输的程序猿的博客, 本博客致力于知识分享,与更多的人进行学习交流 本文收录于SQL应知应会专栏,本专栏主要用于记录对于数据库的一些学习,有基础也有进阶,有MySQL…
-
Hive 优化总结
Hive优化 本质:HDFS + MapReduce 问题原因: 倾斜: 分区:有的分区没有数据,有的分区数据堆积。(若按天分区,每一天数据差别大就叫倾斜。) group by:有…
-
Hive SQL 中ARRAY或MAP类型数据处理:lateral view explode()/posexplode()——行转列函数
前言:在对表数据进行批量处理过程中,常常碰上某个字段是一个array或者map形式的字段,一列数据的该字段信息同时存在多个值,当我们需要取出该数组中的每一个值实现一一对应关系的时候…
-
Hive的基本SQL操作(DDL篇)
目录 编辑 一、数据库的基本操作 1.1 展示所有数据库 1.2 切换数据库 1.3 创建数据库 1.4 删除数据库 1.5 显示数据库信息 1.5.1 显示数据库信息 1.5….
-
二百零九、Hive——with嵌套语句报错:hadoop.hive.ql.parse.SemanticException: Line 2:5 Ambiguous table alias ‘t2‘
一、目的 在Hive的with嵌套语句时,HQL报错Line 2:5 Ambiguous table alias ‘t2’ 二、报错详情 org.apach…
-
数据仓库【5】:项目实战
数据仓库【5】:项目实战 1、项目概述 1.1、项目背景 1.2、复购率计算 2、数据描述 3、架构设计 3.1、数据仓库架构图 4、环境搭建 4.1、环境说明 4.2、集群规划 …
-
Flink读写Doris操作介绍
Flink读写Doris操作介绍 Flink Doris Connector 可以支持通过 Flink 操作(读取、插入、修改、删除) Doris 中存储的数据。可以将 Dor…
-
dataX3.0和datax-web部署实践踩坑记录(windows版)
今年公司需要上一个数据分析项目,在考察了一番(百度一番)之后决定上datax加上datax-web的方式来进行数据调度。 PS:写在前面,主要作用是为了自己以后再次(跳槽)部署而写…
-
【SQL开发实战技巧】系列(二十二):数仓报表场景☞ 从分析函数效率一定快吗聊一聊结果集分页和隔行抽样实现方式
系列文章目录 【SQL开发实战技巧】系列(一):关于SQL不得不说的那些事 【SQL开发实战技巧】系列(二):简单单表查询 【SQL开发实战技巧】系列(三):SQL排序的那些事 【…
-
我的数据仓库与数据挖掘期末大作业重置版
文章目录 我的数据仓库与数据挖掘期末大作业重置版 准备工作 预设定及导入相对应的库 库的导入 调整 Jupyter Notebook 的预设定 调整 MatPlotLib 和 Pa…
-
大数据存储架构详解:数据仓库、数据集市、数据湖、数据网格、湖仓一体
前言 本文隶属于专栏《大数据理论体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢! 本专栏目录结构和参考文献请见大数据理论体系 姊妹篇 《分布式数据…
-
数据挖掘(2.4)–数据归约和变换
目录 1.数据归约 1.1数据立方体聚合 1.2特征选择 1.3数据压缩 1.4其他数据归约方法 回归分析 直方图 聚类 简单随机采样(SAS) 2.数据离散化 2.1基于信息增益…
