etl
-
数据仓库与ETL:数据仓库设计和ETL流程
1.背景介绍 数据仓库与ETL:数据仓库设计和ETL流程 1. 背景介绍 数据仓库是一种用于存储、管理和分析大量历史数据的系统。它通常用于企业、组织和政府等机构,以支持决策过程。数…
-
大数据技术3:数据仓库的ETL和分层模型
前言:我们先了解一下数据仓库架构的演变过程。 1 、数据仓库定义 数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-V…
-
Flink的实时数据集成与ETL
1.背景介绍 1. 背景介绍 Apache Flink 是一个流处理框架,用于实时数据处理和分析。它支持大规模数据流处理,具有高吞吐量和低延迟。Flink 的 ETL(Extrac…
-
ETL详解–数据仓库技术
一、ETL简介 ETL,是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至…
-
基于 Flink CDC 构建 MySQL 的 Streaming ETL to MySQL
简介 CDC 的全称是 Change Data Capture ,在广义的概念上,只要是能捕获数据变更的技术,我们都可以称之为 CDC 。目前通常描述的 CDC 技术主要面向数据库…
-
六、数据仓库详细介绍(ETL)经验篇
0x00 前言 日常工作中大多数时候都是在做数据开发,ETL 无处不在。虽然最近两年主要做的大数据开发,但感觉日常干的这些还是 ETL 那点事儿,区别只是技术组件全…
-
数据仓库的ETL技术:最佳实践与案例分析
1.背景介绍 数据仓库是一种用于存储和管理大量历史数据的系统,它通常用于企业和组织的决策支持、数据分析和业务智能等方面。ETL(Extract, Transform, Load)技…
-
Hive case when 用法详细介绍
Hive的CASE WHEN语句是一种条件语句,用于在查询结果中根据不同的条件返回不同的结果。 语法: SELECT CASE WHEN condition1 THEN resul…
-
【Kafka架构及应用】
Kafka的架构和运行原理 Kafka是一个分布式流处理平台,它由以下几个核心组件组成: Broker:Kafka集群中的一个节点,负责接收、存储和转发消息。 Topic:消息的逻…
-
第三十七部分:DMP数据平台开发的数据仓库与ETL
1.背景介绍 1. 背景介绍 数据仓库是一种用于存储和管理大量历史数据的系统,它通常用于支持决策过程。ETL(Extract、Transform、Load)是数据仓库中的一种数据处…
-
【大数据】NiFi 中的处理器(二):PutDatabaseRecord
NiFi 中的处理器(二):PutDatabaseRecord 1.基本介绍2.属性配置3.连接关系4.应用场景1.基本介绍PutDatabaseRecord 处理器使用指定的 R…
-
DataX VS Kettle,深度对比分析
1.前言 开源的 ETL工具里面 DataX和 Kettle的人气一直高居不下,datax虽然比较年轻,但这两年发展势头很猛,不时就能听到身边的同事谈起。kettle作为老牌的 e…
-
ETL工具 – JAVA 调用 Kettle 转换、作业脚本
一、JAVA 调用 Kettle 转换 在写 Java 程序前,先使用 Spoon 设计一下转换的过程,这里以拉取 CSDN 文章列表存入 txt 文本为例: 拉取的接口为 htt…
-
2024.1.7 Spark SQL , DataFrame
目录 一 . SparkSQL简介 二 . Spark SQL与HIVE的异同 三 . DataFrame 1. 创建 DataFrame 2. RDD转换DataFrame …
-
ETL基础概念及要求详解
ETL基础概念及要求详解 概念 ETL与ELT 数据湖与数据仓库 ETL应用场景 ETL具体流程及操作要求 抽取 清洗 转换 加载 ETL设计模式 SQL+脚本语言 ETL工具设计…
