数据仓库
-
Flink的实时数据集成与ETL
1.背景介绍 1. 背景介绍 Apache Flink 是一个流处理框架,用于实时数据处理和分析。它支持大规模数据流处理,具有高吞吐量和低延迟。Flink 的 ETL(Extrac…
-
Hive之函数篇(使用函数看这篇足够了)
目录 查询函数相关信息: (1)查看系统所有的内置函数 (2)查看string相关的所有函数 (3)查询某个函数的详细信息 单行函数: (1)算数运算函数: (2)数值函数: (3…
-
详解数据仓库之拉链表(原理、设计以及在Hive中的实现)
最近发现一本好书,读完感觉讲的非常好,首先安利给大家,国内第一本系统讲解数据血缘的书!点赞!近几天也会安排朋友圈点赞赠书活动(ง•̀_•́)ง 0x00 前言 本文将会谈一谈在数据…
-
【SparkSQL】基础入门(重点:SparkSQL和Hive的异同、SparkSQL数据抽象)
【大家好,我是爱干饭的猿,本文重点介绍Spark SQL的定义、特点、发展历史、与hive的区别、数据抽象、SparkSession对象。 后续会继续分享其他重要知识点总结,如果喜…
-
Hive命令调优大全
– explain语法查询** – explain解析执行计划 – 以下优化为hive层面优化,常开**** – 读取零拷贝 set hive.exec.orc.zerocopy=…
-
公有云中的数据仓库和大数据处理
1.背景介绍 随着互联网和数字化的发展,数据量不断增加,数据处理和分析成为企业和组织的关键能力。数据仓库和大数据处理技术在这个背景下崛起,成为关键技术之一。公有云在这个过程中也发挥…
-
第1关:Hive 的 Alter Table 操作
相关知识 为了完成本关任务,你需要掌握: 1.Alter Table 命令 Alter Table 命令 Alter Table 命令 可以在 Hive 中修改表名,列名,列注释,…
-
hive在执行elect count(*) 没有数据显示为0(实际有数据)
set hive.compute.query.using.stats=false; 是 Hive 的一个配置选项。它的含义是禁用 Hive 在执行查询时使用统计信息。 在 Hive…
-
hive怎么更新数据
要在Hive中更新数据,你可以使用INSERT OVERWRITE或INSERT INTO语句。 使用INSERT OVERWRITE语句时,首先需要创建一个临时表,将需要更新的数…
-
powerdesigner下载安装教程
1、什么是PowerDesigner PowerDesigner是Sybase公司的CASE工具集,使用它可以方便地对管理信息系统进行分析设计,它几乎包括了数据库模…
-
Hive外表创建和加载数据
Hive内表和外表的区别 外表: 需要external关键字,location是数据文件默认存放位置,不管是select还是load的数据都存放在这里。导入数据到外部表,数据并没有…
-
Hive基础知识(十六):Hive-SQL分区表使用与优化
1. 分区表 分区表实际上就是对应一个 HDFS 文件系统上的独立的文件夹,该文件夹下是该分区所有的数据文件。Hive 中的分区就是分目录,把一个大的数据集根据业务需要分割成小的数…
-
数据仓库内容分享(五):企业数据治理之主数据管理
目录 1 主数据 1.1、主数据概念 1.2、定位主数据 1.3、主数据标准 1.4、主数据与其他数据的关系 2 主数据管理 2.1、主数据概念 2.2、主数据管理原则 2.3、主…
-
Hive之set参数大全-16
配置 HiveServer2 中 Tez Workload Manager (WM) Application Master (AM) 注册的超时时间 在 Hive 中,hive.s…
-
元数据管理在数据仓库中的实践应用
一、什么是数据仓库的元数据管理? 1、什么是元数据? 元数据(Metadata),又称中介数据、中继数据,为描述数据的数据(data about data)。 抽象的描述:一组用于…
