数据仓库
-
数据挖掘(7.1)–数据仓库
目录 引言 一、数据库 1.简介 2.数据库管理系统(DBMS) 二、数据仓库 数据仓库特征 数据仓库作用 数据仓库和DBMS对比 分离数据仓库和数据库 引言 数据仓库的历史可以追…
-
【hive】列转行—collect
文章目录 一、collect_set()/collect_list() 二、实际运用 把同一分组的不同行的数据聚合成一个行 用下标可以随机取某一个 聚合后的中的值用‘|’分隔开 使…
-
hive报错——FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.StatsTask
今天向分区表插入数据 insert into table——–的时候 执行完报错了:FAILED: Execution Error, retur…
-
5、DataX(DataX简介、DataX架构原理、DataX部署、使用、同步MySQL数据到HDFS、同步HDFS数据到MySQL)
1、DataX简介 1.1 DataX概述 DataX 是阿里巴巴开源的一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、O…
-
现在的湖仓一体像是个伪命题
文章目录 开放的计算引擎SPL助力湖仓一体 开放且完善的计算能力 多数据源混合计算 文件计算支持 完善的计算能力 直接访问源数据 数据整理后的高性能计算 SPL资料 从一体机、超融…
-
数据湖Iceberg介绍和使用(集成Hive、SparkSQL、FlinkSQL)
文章目录 简介 概述 作用 特性 数据存储、计算引擎插件化 实时流批一体 数据表演化(Table Evolution) 模式演化(Schema Evolution) 分区演化(Pa…
-
MySQL 图书管理系统
1.需求分析 1.1项目需求分析简介 1.1.1信息需求分析 (1) 图书信息:包括书籍编号,书籍名称,出版社,作者,库存量,出版日期,价格,库存,剩余量,类别等; (2) 借阅证…
-
数据仓库入门介绍框架(附带完整项目实战)
一、诞生背景 企业数据分析需要:各个部门自己建立独立的数据抽取系统,导致数据不一致 概述 数据仓库是一个面向主题的、集成、非易失的且随时间变化的数据集合 主要用于组织积累的历史数据…
-
详解数据仓库和数据集市:ODS、DW、DWD、DWM、DWS、ADS
一、数据流向 二、应用示例 三、何为数仓DW Data warehouse(可简写为DW或者DWH)数据仓库,是在数据库已经大量存在的情况下,它是一整套包括了etl、调度、建模在内…
-
云数据仓库实践:AWS Redshift在大数据储存分析上的落地经验分享
🏆作者简介,黑夜开发者,CSDN领军人物,全栈领域优质创作者✌,CSDN博客专家,阿里云社区专家博主,2023年6月CSDN上海赛道top4。 🏆数…
-
数据库实战经验分享(全量表,增量表,拉链表,流水表,快照表)
前言 当人们一提到全量表,增量表,拉链表,流水表,快照表等这些概念时,大家第一反应想到的就是传统数据仓库的使用。 那么本文将从数据仓库介入,简单介绍一下openGauss设计中的全…
-
Hive实战:分科汇总求月考平均分
文章目录 一、实战概述 二、提出任务 三、完成任务 (一)准备数据 1、在虚拟机上创建文本文件 2、上传文件到HDFS指定目录 (二)实现步骤 1、启动Hive Metastore…
-
ETL工具 – Kettle 介绍及基本使用
一、Kettle 介绍 在介绍 Kettle 前先了解下什么是 ETL,ETL是 Extract-Transform-Load 的缩写,即数据 抽取、转换、装载 的过程,对于企业或…
-
Quick Bi经验总结
Quick Bi经验总结 Quick Bi简介 Quick BI是阿里云的产品,是一个专为云上用户(数据量特别大,借助阿里云进行数据托管)量身打造的新一代智能BI服务平台,当然…
-
数据优化的数据湖:构建高效的数据仓库解决方案
1.背景介绍 数据湖和数据仓库都是用于存储和管理大规模数据的解决方案,但它们之间存在一些关键的区别。数据湖是一种无结构化或半结构化的数据存储,允许数据在存储过程中保持原始格式,而数…
