hive | 第8页 | 协通编程

大数据

seatunnel-2.3.2 doris数据同步到hive(cdh-6.3.2)首次运行踩坑记录

seatunnel-2.3.2 doris数据同步到hive(cdh-6.3.2)首次运行报错解决，解决的报错如下： 1、java.lang.NoClassDefFoundErro…

1天前

大数据

Sqoop 安装配置（超详细）

文章目录 1.下载 2.解压 3.添加环境变量 4.配置 Sqoop 环境变量文件 5. MySQL 驱动 6. 拷贝 Hive 文件 7.验证 8.去除警告信息 9. Sqoop…

1天前

Hive DDL语法

Hive的语法和MySQL大部分都相同一、数据库操作 1.1、创建数据库 CREATE DATABASE [IF NOT EXISTS] database name [COMME…

大数据 1天前

Hive引擎MR、Tez、Spark

Hive引擎包括：默认MR、Tez、Spark 不更换引擎hive默认的就是MR。 MapReduce：是一种编程模型，用于大规模数据集（大于1TB）的并行运算。 Hive on …

大数据 1天前

大数据

Hive基础和使用详解

文章目录一、启动hive 1. hive启动的前置条件 2. 启动方式一: hive命令 3. 方式二:使用jdbc连接hive 二、Hive常用交互命令 1. hive -he…

1天前

大数据

大数据技术之Hive基础知识及基础操作（一）

一、数据仓库数据仓库是一个面向主题的、集成的、相对稳定的、反应历史变化的数。据集合，用于支持管理决策。二、数据仓库的体系结构三、Hive简介 •Hive是一个构建于Hadoo…

1天前

大数据

数据清洗【大数据比赛长期更新】

数据清洗 1.题目分析使用Scala编写spark工程代码，将ods库中相应表数据全量抽取到Hive的dwd库中对应表中。表中有涉及到timestamp类型的，均要求按照yyyy…

1天前

大数据

hive on spark集群环境部署（彻底摆脱做毕设没环境）

#所需安装包下载路径 (1)mysql rpm包路径：https://downloads.mysql.com/archives/community/ connect路径：https…

1天前

大数据

【Hive+MySQL+Python】淘宝用户购物行为数据分析项目

目录一、数据集介绍二、数据处理 1. 数据导入 2. 数据清洗三、数据分析可视化 1. 用户流量及购物情况（1）总访问量PV，总用户量UV （2）日均访问量，日均用户量（…

1天前

大数据系统常用组件理解（Hadoop/hive/kafka/Flink/Spark/Hbase/ES）

一.Hadoop Hadoop是一个由Apache基金会所开发的分布式系统基础架构。 Hadoop 以一种可靠、高效、可伸缩的方式进行数据处理。 Hadoop的核心是yarn、HD…

大数据 1天前

大数据篇 | Hadoop、HDFS、HIVE、HBase、Spark之间的联系与区别

文章目录 1、Hadoop 2、HDFS 3、HIVE 4、HBase 5、Spark 1、Hadoop Hadoop是一个开源的分布式计算框架，用于存储和处理大规模数据集。它提供…

大数据 1天前

大数据

hive文件存储格式orc和parquet详解

hive支持的文件类型：textfile、sequencefile（二进制序列化文件）、rcfile（行列式文件）、parquet、orcfile（优化的行列式文件）一、orc文…

1天前

Hive中生成自增序列的常用方法

在日常业务开发过程中，通常遇到需要hive数据表中生成一列唯一ID，当然连续递增的更好。最近在结算业务中，需要在hive表中生成一列连续且唯一的账单ID，于是就了解生成唯一ID的…

大数据 1天前

大数据

（十七）大数据实战——Hive的hiveserver2服务安装部署

前言 HiveServer2 是 Apache Hive 的一个服务器端组件，用于支持客户端与 Hive 进行交互和执行查询。HiveServer2服务的作用是提供jdbc/odb…

1天前

大数据

hive的concat()、concat

hive的concat、concat_ws和collect_list、collect_set的用法 concat和concat_ws collect_list和collect_se…

1天前