数据仓库
-
insert overwrite table:数据仓库和数据分析中的常用技术
一、介绍: INSERT OVERWRITE TABLE 是用于覆盖(即替换)目标表中的数据的操作。它将新的数据写入表中,并删除原有的数据。这个操作适用于非分区表和分区表。 二、使…
-
Hive内容分享(十五):Hive面试题分享
1、下述SQL在Hive、SparkSql两种引擎中,执行流程分别是什么,区别是什么 Hive on Mapreduce hive的特性: hive是基于Hadoop的一个数据仓库…
-
一篇文章教会你搭建Hive分布式集群
目录 编辑 一、环境描述 二、安装mysql 2.1 卸载mysql 2.1.1 列出安装的mysql 2.1.2 卸载mysql 2.1.3 删除mysql文件目录 2.1.3…
-
从零开始了解大数据(七):总结
系列文章目录 从零开始了解大数据(一):数据分析入门篇-CSDN博客 从零开始了解大数据(二):Hadoop篇-CSDN博客 从零开始了解大数据(三):HDFS分布式文件系统篇-C…
-
Hive用户自定义函数之UDF开发
在进行大数据分析或者开发的时候,难免用到Hive进行数据查询分析,Hive内置很多函数,但是会有一部分需求需要自己开发,这个时候就需要自定义函数了,Hive的自定义函数开发非常方便…
-
多标签用户画像分析跑得快的关键在哪里?
用户画像分析需要使用众多标签来描述用户属性,通常有两类标签。一类用户标签的值可能有多个,比如用户学历是中学、大学、研究生、博士等,年龄段是children、juvenile、you…
-
[hive]中的字段的数据类型有哪些
Hive中提供了多种数据类型用于定义表的字段。以下是Hive中常见的数据类型: 布尔类型(Boolean):用于表示true或false。 字符串类型(String):用于表示文本…
-
阿里云-DataWorks- ODPS SQL开发
1、前言 阿里云 数据仓库这一系列断断续续也有很久没有更新了,新年新气象,赶紧追上开写。 2、基本概念 1、ODPS: Open Data Processing Service, …
-
通俗易懂:什么是拉链表
拉链表是数据仓库中一种重要的模型,相信很多数据工作者都接触过,面试也是经常考察的点。 但是很多人第一次接触“拉链表”这个词,难免会产生疑惑:拉链表是什么? 目录 什么是拉链表 每天…
-
hive进行base64 加密解密函数
加密 select base64(cast(‘abcd’ as binary)) YWJjZA== 解密 — 直接解密(结果字段格式为比binary格式) select unba…
-
【大数据】Doris 构建实时数仓落地方案详解(三):Doris 实时数仓设计
本系列包含: Doris 构建实时数仓落地方案详解(一):实时数据仓库概述 Doris 构建实时数仓落地方案详解(二):Doris 核心功能解读 Doris 构建实时数仓落地方案详…
-
Hive简介
Apache Hive简介 什么是分布式SQL? 通过分布式的方式,执行SQL语句,获取分析结果。 Hive的优势 通过java或者python直接操作MapReduce,也可以做…
-
Hive导入数据的五种方法
在Hive中建表成功之后,就会在HDFS上创建一个与之对应的文件夹,且文件夹名字就是表名; 文件夹父路径是由参数hive.metastore.warehouse.d…
-
hive插入动态分区数据时,return code 2报错解决
目录 一、完整报错 二、原因 2.1、动态分区问题 2.2、语句占用内存问题 三、其他 一、完整报错 Error while pro…
-
数据仓库-日期维度表的设计与实现
时间维度表的制作 1 需求背景 在大数据分析模块中,我们需要从不同的维度分析主题表,包括常用的公用维度:时间维,地区维度,教育信息维…以及各种各样的业务维度:员工维度,部门维度…,…
