数据仓库 | 第2页 | 协通编程

Flink的实时数据集成与ETL

1.背景介绍 1. 背景介绍 Apache Flink 是一个流处理框架，用于实时数据处理和分析。它支持大规模数据流处理，具有高吞吐量和低延迟。Flink 的 ETL(Extrac…

大数据 1天前

大数据

Hive之函数篇（使用函数看这篇足够了）

目录查询函数相关信息：（1）查看系统所有的内置函数（2）查看string相关的所有函数（3）查询某个函数的详细信息单行函数：（1）算数运算函数：（2）数值函数：（3…

1天前

大数据

详解数据仓库之拉链表（原理、设计以及在Hive中的实现）

最近发现一本好书，读完感觉讲的非常好，首先安利给大家，国内第一本系统讲解数据血缘的书！点赞！近几天也会安排朋友圈点赞赠书活动(ง•̀_•́)ง 0x00 前言本文将会谈一谈在数据…

1天前

大数据

【SparkSQL】基础入门（重点：SparkSQL和Hive的异同、SparkSQL数据抽象）

【大家好，我是爱干饭的猿，本文重点介绍Spark SQL的定义、特点、发展历史、与hive的区别、数据抽象、SparkSession对象。后续会继续分享其他重要知识点总结，如果喜…

1天前

Hive命令调优大全

– explain语法查询** – explain解析执行计划 – 以下优化为hive层面优化,常开**** – 读取零拷贝 set hive.exec.orc.zerocopy=…

大数据 1天前

公有云中的数据仓库和大数据处理

1.背景介绍随着互联网和数字化的发展，数据量不断增加，数据处理和分析成为企业和组织的关键能力。数据仓库和大数据处理技术在这个背景下崛起，成为关键技术之一。公有云在这个过程中也发挥…

大数据 1天前

大数据

第1关：Hive 的 Alter Table 操作

相关知识为了完成本关任务，你需要掌握： 1.Alter Table 命令 Alter Table 命令 Alter Table 命令可以在 Hive 中修改表名，列名，列注释，…

1天前

大数据

hive在执行elect count(*) 没有数据显示为0（实际有数据）

set hive.compute.query.using.stats=false; 是 Hive 的一个配置选项。它的含义是禁用 Hive 在执行查询时使用统计信息。在 Hive…

1天前

hive怎么更新数据

要在Hive中更新数据，你可以使用INSERT OVERWRITE或INSERT INTO语句。使用INSERT OVERWRITE语句时，首先需要创建一个临时表，将需要更新的数…

大数据 1天前

大数据

powerdesigner下载安装教程

1、什么是PowerDesigner PowerDesigner是Sybase公司的CASE工具集，使用它可以方便地对管理信息系统进行分析设计，它几乎包括了数据库模…

1天前

Hive外表创建和加载数据

Hive内表和外表的区别外表：需要external关键字，location是数据文件默认存放位置，不管是select还是load的数据都存放在这里。导入数据到外部表，数据并没有…

大数据 1天前

大数据

Hive基础知识（十六）：Hive-SQL分区表使用与优化

1. 分区表分区表实际上就是对应一个 HDFS 文件系统上的独立的文件夹，该文件夹下是该分区所有的数据文件。Hive 中的分区就是分目录，把一个大的数据集根据业务需要分割成小的数…

1天前

大数据

数据仓库内容分享(五)：企业数据治理之主数据管理

目录 1 主数据 1.1、主数据概念 1.2、定位主数据 1.3、主数据标准 1.4、主数据与其他数据的关系 2 主数据管理 2.1、主数据概念 2.2、主数据管理原则 2.3、主…

1天前

Hive之set参数大全-16

配置 HiveServer2 中 Tez Workload Manager (WM) Application Master (AM) 注册的超时时间在 Hive 中，hive.s…

大数据 1天前

大数据

元数据管理在数据仓库中的实践应用

一、什么是数据仓库的元数据管理？ 1、什么是元数据？元数据（Metadata），又称中介数据、中继数据，为描述数据的数据（data about data）。抽象的描述：一组用于…

1天前