数据仓库
-
数据仓库从0到1之数仓建模理论
从ODS层到ADS层,数据是越来越少的,数据分析都是以大量的数据为基础,对数据进行汇总聚合运算,抽丝剥茧,越往后数据的汇总层度越高,最后得到汇总的指标。 数仓分层原因 将复杂问题简…
-
数据仓库内容分享(九):数仓分层设计
目录 成为数据治理专家:数仓分层设计 数据流向 ODS 操作数据源层 DWD 数据明细层 DWM 数据中间层 DWS 数据服务层 ADS 数据应用层 其他 成为数据治理专家:数仓分…
-
数据仓库与大数据技术的结合
1.背景介绍 大数据技术已经成为当今企业和组织中不可或缺的一部分,它为企业提供了大量的数据来源,帮助企业更好地了解市场、客户、产品等,从而提高企业的竞争力。然而,大数据技术的发展也…
-
数据仓库内容分享(十五):解读向量数据库
目录 1. 什么是向量数据库? 2. 向量数据库的工作机理 3. 向量数据库的分类 3.1 原生的向量数据库 Faiss Pinecone Milvus 3.2 支持向量的全文检索…
-
第二十章:DMP数据平台的数据湖与数据仓库
1.背景介绍 1. 背景介绍 数据湖(Data Lake)和数据仓库(Data Warehouse)是两种不同的数据存储方法,它们在数据处理和分析方面有着各自的优缺点。数据湖是一种…
-
数据仓库与ETL:数据仓库设计和ETL流程
1.背景介绍 数据仓库与ETL:数据仓库设计和ETL流程 1. 背景介绍 数据仓库是一种用于存储、管理和分析大量历史数据的系统。它通常用于企业、组织和政府等机构,以支持决策过程。数…
-
如何使用Hive或者HadoopMR访问表格存储中的表
使用教程 更新时间:2023-12-14 09:58 本文主要为您介绍如何使用Hive或者HadoopMR访问表格存储中的表。 数据准备 在表格存储中准备一张数据表pet,name…
-
Hive内核调优(二)
Hive内核调优(二) 1.3 Hive 日志说明 SQL调优过程中需要结合Hive日志分析性能瓶颈,如下是对关键日志进行说明。 1.3.1 运行日志 运行态日志主要包括HiveS…
-
数据治理之主题域(一)
一、主题域的概念 主题域是对实体的逻辑分组,我们以上帝视角去看企业的业务系统,梳理企业的业务实体,实体与实体之间的关系,将企业中的数据进行逻辑划分。相同主题域中的数据联系紧密,不同…
-
如何理解元数据、数据元、元模型、数据字典、数据模型这五个的关系?如何进行数据治理呢?数据治理该从哪方面入手呢?
如何理解元数据、数据元、元模型、数据字典、数据模型这五个的关系?如何进行数据治理呢?数据治理该从哪方面入手呢? 导读 一、数据元 二、元数据 三、数据模型 四、数据字典 五、元模型…
-
【HIVE】数据的定义与操作
文章目录 前言 一、Hive基本数据类型 二、Hive集合数据类型 三、Hive数据定义与操作 1.创建数据库 2.查看数据库 3.删除数据库 4.创建表 5.修改表 6.删除表 …
-
数据仓库安全与隐私:保护措施与实践
1.背景介绍 数据仓库安全与隐私是当今数据驱动经济的关键问题之一。随着数据的积累和分析的重要性不断提高,数据仓库的安全和隐私保护成为了企业和组织的重要议题。数据仓库安全与隐私的保护…
-
数据仓库与数据湖的区别与优劣
1.背景介绍 数据仓库和数据湖都是在大数据领域中广泛应用的数据管理技术,它们在数据存储、处理和分析方面有着不同的特点和优劣。在本文中,我们将从以下几个方面进行深入探讨: 背景介绍 …
-
mongodb数据同步到hive
背景 用户需求: 需要将 mongodb 的数据同步到 hive 表,共 2 亿+条数据,总数据量约 30G 查阅一些博客后,大致同步方法有以下几种 手动+离线 对于比较小的数据,…
-
Hive之set参数大全-15
指定 HiveServer2 使用的认证方式 hive.server2.authentication 是 Hive 中的一个参数,用于指定 HiveServer2 使用的认证方式。…
