hive
-
seatunnel-2.3.2 doris数据同步到hive(cdh-6.3.2)首次运行踩坑记录
seatunnel-2.3.2 doris数据同步到hive(cdh-6.3.2)首次运行报错解决,解决的报错如下: 1、java.lang.NoClassDefFoundErro…
-
Sqoop 安装配置(超详细)
文章目录 1.下载 2.解压 3.添加环境变量 4.配置 Sqoop 环境变量文件 5. MySQL 驱动 6. 拷贝 Hive 文件 7.验证 8.去除警告信息 9. Sqoop…
-
Hive DDL语法
Hive的语法和MySQL大部分都相同 一、数据库操作 1.1、创建数据库 CREATE DATABASE [IF NOT EXISTS] database name [COMME…
-
Hive引擎MR、Tez、Spark
Hive引擎包括:默认MR、Tez、Spark 不更换引擎hive默认的就是MR。 MapReduce:是一种编程模型,用于大规模数据集(大于1TB)的并行运算。 Hive on …
-
Hive基础和使用详解
文章目录 一、启动hive 1. hive启动的前置条件 2. 启动方式一: hive命令 3. 方式二:使用jdbc连接hive 二、Hive常用交互命令 1. hive -he…
-
大数据技术之Hive基础知识及基础操作(一)
一、数据仓库 数据仓库是一个面向主题的、集成的、相对稳定的、反应历史变化的数。据集合,用于支持管理决策。 二、数据仓库的体系结构 三、Hive简介 •Hive是一个构建于Hadoo…
-
数据清洗【大数据比赛长期更新】
数据清洗 1.题目分析 使用Scala编写spark工程代码,将ods库中相应表数据全量抽取到Hive的dwd库中对应表中。表中有涉及到timestamp类型的,均要求按照yyyy…
-
hive on spark集群环境部署(彻底摆脱做毕设没环境)
#所需安装包下载路径 (1)mysql rpm包路径:https://downloads.mysql.com/archives/community/ connect路径:https…
-
【Hive+MySQL+Python】淘宝用户购物行为数据分析项目
目录 一、数据集介绍 二、数据处理 1. 数据导入 2. 数据清洗 三、数据分析可视化 1. 用户流量及购物情况 (1)总访问量PV,总用户量UV (2)日均访问量,日均用户量 (…
-
大数据系统常用组件理解(Hadoop/hive/kafka/Flink/Spark/Hbase/ES)
一.Hadoop Hadoop是一个由Apache基金会所开发的分布式系统基础架构。 Hadoop 以一种可靠、高效、可伸缩的方式进行数据处理。 Hadoop的核心是yarn、HD…
-
大数据篇 | Hadoop、HDFS、HIVE、HBase、Spark之间的联系与区别
文章目录 1、Hadoop 2、HDFS 3、HIVE 4、HBase 5、Spark 1、Hadoop Hadoop是一个开源的分布式计算框架,用于存储和处理大规模数据集。它提供…
-
hive文件存储格式orc和parquet详解
hive支持的文件类型:textfile、sequencefile(二进制序列化文件)、rcfile(行列式文件)、parquet、orcfile(优化的行列式文件) 一、orc文…
-
Hive中生成自增序列的常用方法
在日常业务开发过程中,通常遇到需要hive数据表中生成一列唯一ID,当然连续递增的更好。 最近在结算业务中,需要在hive表中生成一列连续且唯一的账单ID,于是就了解生成唯一ID的…
-
(十七)大数据实战——Hive的hiveserver2服务安装部署
前言 HiveServer2 是 Apache Hive 的一个服务器端组件,用于支持客户端与 Hive 进行交互和执行查询。HiveServer2服务的作用是提供jdbc/odb…
-
hive的concat()、concat
hive的concat、concat_ws和collect_list、collect_set的用法 concat和concat_ws collect_list和collect_se…
