hive
-
大数据系统常用组件理解(Hadoop/hive/kafka/Flink/Spark/Hbase/ES)
一.Hadoop Hadoop是一个由Apache基金会所开发的分布式系统基础架构。 Hadoop 以一种可靠、高效、可伸缩的方式进行数据处理。 Hadoop的核心是yarn、HD…
-
大数据篇 | Hadoop、HDFS、HIVE、HBase、Spark之间的联系与区别
文章目录 1、Hadoop 2、HDFS 3、HIVE 4、HBase 5、Spark 1、Hadoop Hadoop是一个开源的分布式计算框架,用于存储和处理大规模数据集。它提供…
-
hive文件存储格式orc和parquet详解
hive支持的文件类型:textfile、sequencefile(二进制序列化文件)、rcfile(行列式文件)、parquet、orcfile(优化的行列式文件) 一、orc文…
-
Hive中生成自增序列的常用方法
在日常业务开发过程中,通常遇到需要hive数据表中生成一列唯一ID,当然连续递增的更好。 最近在结算业务中,需要在hive表中生成一列连续且唯一的账单ID,于是就了解生成唯一ID的…
-
(十七)大数据实战——Hive的hiveserver2服务安装部署
前言 HiveServer2 是 Apache Hive 的一个服务器端组件,用于支持客户端与 Hive 进行交互和执行查询。HiveServer2服务的作用是提供jdbc/odb…
-
hive的concat()、concat
hive的concat、concat_ws和collect_list、collect_set的用法 concat和concat_ws collect_list和collect_se…
-
基于Python-sqlparse的SQL表血缘追踪解析实现
目录 前言 一、主线任务 1.数据治理 2.血缘追踪 3.SQL表血缘 二、实现过程 1.目标效果 2.代码实现 1.功能函数识别 2.SQL标准格式 3.解析AST树 4.最终…
-
【kettle】pdi/data-integration 集成kerberos认证连接hdfs、hive或spark thriftserver
一、背景 kerberos认证是比较底层的认证,掌握好了用起来比较简单。 kettle完成kerberos认证后会存储认证信息在jvm中,之后直接连接hive就可以了无需提供额外的…
-
Hive插入数据警告:Hive-on-MR is deprecated in Hive 2 and may not be available in the future versions
Hive插入表数据持续等待警告问题解决 1、问题描述 2、原因分析 3、问题解决 1、问题描述 启动Hadoop,使用hiveserver2启动Hive的JDBC服务并使用IDE连…
-
【大数据】Docker部署HMS(Hive Metastore Service)并使用Trino访问Minio
本文参考链接置顶: Presto使用Docker独立运行Hive Standalone Metastore管理MinIO(S3)_hive minio_BigDataToAI的博客…
-
[Hive] INSERT OVERWRITE DIRECTORY要注意的问题
在使用Hive的INSERT OVERWRITE语句时,需要注意以下问题: 数据覆盖:INSERT OVERWRITE语句会覆盖目标目录中的数据。因此,在执行该语句之前,请确保目标…
-
Hive数据倾斜的原因以及常用解决方案
在Hadoop平台的hive数据库进行开发的时候,数据倾斜也是比较容易遇到的问题,这边文章对数据倾斜的定义以及产生的原因、对应的解决方案进行学习。 一、数据倾斜的定义 数据倾斜:数…
-
大数据项目实战-招聘网站职位分析
目录 第一章:项目概述 1.1项目需求和目标 1.2预备知识 1.3项目架构设计及技术选取 1.4开发环境和开发工具 1.5项目开发流程 第二章:搭建大数据集群环…
-
大数据Hadoop之——部署hadoop+hive+Mysql环境(window11)
目录 一、安装JDK8 1)JDK下载地址 2)设置环境变量 二、Hadoop安装(window10环境) 1)下载Hadoop3.1.3 2)Hadoop配置环境变量 3)在ha…
-
使用hive sql 为hive增加或者创建自增列,自增id的五种方式
*注意:此篇完全是废话,是错误演示文档 我的原始查询语句展示和表展示。 select channelCount, intBuffer[0] data1 from vibration…
