数据仓库
-
数据仓库与数据库的选型与建立
1.背景介绍 数据仓库和数据库是数据管理领域中两个核心概念。数据仓库是用于存储和管理大量历史数据的仓库,而数据库则是用于存储和管理实时数据。在现代企业中,数据仓库和数据库的选型和建…
-
【用户画像】用户画像简介、用户画像的架构、搭建用户画像管理平台
文章目录 一 用户画像简介 1 用户画像 2 定位 2 应用 3 用户标签 (1)标签分级 (2)标签分类 二 用户画像的架构 1 画像处理流程 2 画像标签数据应用 3 用户画像…
-
【hive】Hive中的大宽表及其底层详细技术点
简介: 在大数据环境中,处理大规模数据集是常见的需求。为了满足这种需求,Hive引入了大宽表(Large Wide Table)的概念,它是一种在Hive中管理和处理大量列的数据表…
-
达梦VS金仓:选哪个国产数据库?比一比,看看哪个更优!
达梦数据库是一种国产关系型数据库管理系统,具有一定的市场占有率和用户群体。 达梦数据库的特点和优劣势: 优点: 较高的性能:达梦数据库采用了一些优化策略和技术,可以在处理大数据量和…
-
【sentry 到 ranger 系列】一、Sentry 的 Hive 鉴权插件
文章目录 一、前景引入 二、Sentry 对 Hive 【授权】的接管 2.1、权限数据的产生 2.2、插件源码跟踪 2.3、Thrift 接口跟踪 三、Sentry 对 Hive…
-
2024.1.7 Spark SQL , DataFrame
目录 一 . SparkSQL简介 二 . Spark SQL与HIVE的异同 三 . DataFrame 1. 创建 DataFrame 2. RDD转换DataFrame …
-
2024大数据“打假”:什么才是真湖仓一体?
编者按:近年来,随着金融、制造、政务、交通、医疗等行业数字化转型深入,大量智慧应用涌现,使得构建强大的数据分析技术栈成为必须,也让“湖仓一体”成为热门词汇。但面对市场中各色各样的湖…
-
数据湖 vs 数据仓库:选择正确的数据存储解决方案
1.背景介绍 数据湖和数据仓库都是用于存储和管理大规模数据的解决方案。然而,它们之间存在一些关键的区别,这使得它们在不同场景下具有不同的优势和局限性。在本文中,我们将深入探讨数据湖…
-
【前端-NPM私服】内网使用verdaccio搭建私有npm服务器-docker搭建verdaccio流程
目录 一、npm私服是什么 1. 定义 2. 为什么需要npm私服 二、npm私服如何使用 1. 链接到npm私服 2. 注册私服账号 3. 发布组件到私服 4. 关联LDAP服务…
-
spark3使用hive zstd压缩格式总结
ZSTD(全称为Zstandard)是一种开源的无损数据压缩算法,其压缩性能和压缩比均优于当前Hadoop支持的其他压缩格式,本特性使得Hive支持ZSTD压缩格式的表。Hive支…
-
Hive表操作
1.表操作语法和数据类型 1.创建数据库表语法 –库创建查看命令 show databases; –表创建查看命令 show tables; –查看表的基本结构 desc t…
-
hive解析json
目录 一、背景 二、hive 解析 json 数据函数 1、get_json_object 2、json_tuple 3、使用嵌套子查询(explode+regexp_repla…
-
hive里因为列名用了关键字导致建表失败
代码 现象 ParseException line 6:4 cannot recognize input near ‘percent’ ‘Str…
-
hivesql 将json格式字符串转为数组
hivesql 将json格式字符串转为数组 完整过程SQL在文末 json 格式字符串 本案例 json 字符串参考格式,请勿使用本数据 { “data”: [ { “provi…
-
拉链表详解
目录 一、拉链表概念 二、拉链表对应的业务需求 三、代码实现 3.1 数据初始化: 3.2 创建ods层增量表: 3.3 创建dwd层拉链表 3.4 数据更新 ,将数据日期为…
