hive
-
hive语法
DDL 1.数据库操作 (1)创建库 create database db_hive1; (2)显示库 show databases; show database like …
-
hive框架与数据类型
hive Hive是一个基于Hadoop的数据仓库工具,它提供了类似于SQL的查询语言HiveQL来查询和分析大规模数据。Hive将结构化的数据文件映射为一张数据库表,并提供了SQ…
-
使用 PySpark 进行数据清洗与 JSON 格式转换的实践详解(保姆级编码教程)
在大数据处理中,PySpark 提供了强大的工具来处理海量数据,特别是在数据清洗和转换方面。本文将介绍如何使用 PySpark 进行数据清洗,并将数据格式转换为 JSON 格式的实…
-
Hive中left join 中的where 和 on的区别
目录 一、知识点 二、测试验证 三、引申 前言 数仓实际开发中经常会涉及到多表关联,这个时候就会涉及到on与where的使用。因此本篇文章主要阐述on 和 where之间的区…
-
HiveServer2 常见异常和处理方法
1. Connection timed out java.sql.SQLException: Could not open client transport with JDBC U…
-
【hive-解决】HiveAccessControlException Permission denied: CREATEFUNCTION
文章目录 一.任务描述 二. 解决 一.任务描述 Error while compiling statement: FAILED: HiveAccessControlExcepti…
-
seatunnel-2.3.2 doris数据同步到hive(cdh-6.3.2)首次运行踩坑记录
seatunnel-2.3.2 doris数据同步到hive(cdh-6.3.2)首次运行报错解决,解决的报错如下: 1、java.lang.NoClassDefFoundErro…
-
Sqoop 安装配置(超详细)
文章目录 1.下载 2.解压 3.添加环境变量 4.配置 Sqoop 环境变量文件 5. MySQL 驱动 6. 拷贝 Hive 文件 7.验证 8.去除警告信息 9. Sqoop…
-
Hive DDL语法
Hive的语法和MySQL大部分都相同 一、数据库操作 1.1、创建数据库 CREATE DATABASE [IF NOT EXISTS] database name [COMME…
-
Hive引擎MR、Tez、Spark
Hive引擎包括:默认MR、Tez、Spark 不更换引擎hive默认的就是MR。 MapReduce:是一种编程模型,用于大规模数据集(大于1TB)的并行运算。 Hive on …
-
Hive基础和使用详解
文章目录 一、启动hive 1. hive启动的前置条件 2. 启动方式一: hive命令 3. 方式二:使用jdbc连接hive 二、Hive常用交互命令 1. hive -he…
-
大数据技术之Hive基础知识及基础操作(一)
一、数据仓库 数据仓库是一个面向主题的、集成的、相对稳定的、反应历史变化的数。据集合,用于支持管理决策。 二、数据仓库的体系结构 三、Hive简介 •Hive是一个构建于Hadoo…
-
数据清洗【大数据比赛长期更新】
数据清洗 1.题目分析 使用Scala编写spark工程代码,将ods库中相应表数据全量抽取到Hive的dwd库中对应表中。表中有涉及到timestamp类型的,均要求按照yyyy…
-
hive on spark集群环境部署(彻底摆脱做毕设没环境)
#所需安装包下载路径 (1)mysql rpm包路径:https://downloads.mysql.com/archives/community/ connect路径:https…
-
【Hive+MySQL+Python】淘宝用户购物行为数据分析项目
目录 一、数据集介绍 二、数据处理 1. 数据导入 2. 数据清洗 三、数据分析可视化 1. 用户流量及购物情况 (1)总访问量PV,总用户量UV (2)日均访问量,日均用户量 (…
