hive | 第17页 | 协通编程

大数据系统常用组件理解（Hadoop/hive/kafka/Flink/Spark/Hbase/ES）

一.Hadoop Hadoop是一个由Apache基金会所开发的分布式系统基础架构。 Hadoop 以一种可靠、高效、可伸缩的方式进行数据处理。 Hadoop的核心是yarn、HD…

大数据 1天前

大数据篇 | Hadoop、HDFS、HIVE、HBase、Spark之间的联系与区别

文章目录 1、Hadoop 2、HDFS 3、HIVE 4、HBase 5、Spark 1、Hadoop Hadoop是一个开源的分布式计算框架，用于存储和处理大规模数据集。它提供…

大数据 1天前

大数据

hive文件存储格式orc和parquet详解

hive支持的文件类型：textfile、sequencefile（二进制序列化文件）、rcfile（行列式文件）、parquet、orcfile（优化的行列式文件）一、orc文…

1天前

Hive中生成自增序列的常用方法

在日常业务开发过程中，通常遇到需要hive数据表中生成一列唯一ID，当然连续递增的更好。最近在结算业务中，需要在hive表中生成一列连续且唯一的账单ID，于是就了解生成唯一ID的…

大数据 1天前

大数据

（十七）大数据实战——Hive的hiveserver2服务安装部署

前言 HiveServer2 是 Apache Hive 的一个服务器端组件，用于支持客户端与 Hive 进行交互和执行查询。HiveServer2服务的作用是提供jdbc/odb…

1天前

大数据

hive的concat()、concat

hive的concat、concat_ws和collect_list、collect_set的用法 concat和concat_ws collect_list和collect_se…

1天前

大数据

基于Python-sqlparse的SQL表血缘追踪解析实现

目录前言一、主线任务 1.数据治理 2.血缘追踪 3.SQL表血缘二、实现过程 1.目标效果 2.代码实现 1.功能函数识别 2.SQL标准格式 3.解析AST树 4.最终…

1天前

大数据

【kettle】pdi/data-integration 集成kerberos认证连接hdfs、hive或spark thriftserver

一、背景 kerberos认证是比较底层的认证，掌握好了用起来比较简单。 kettle完成kerberos认证后会存储认证信息在jvm中，之后直接连接hive就可以了无需提供额外的…

1天前

大数据

Hive插入数据警告：Hive-on-MR is deprecated in Hive 2 and may not be available in the future versions

Hive插入表数据持续等待警告问题解决 1、问题描述 2、原因分析 3、问题解决 1、问题描述启动Hadoop，使用hiveserver2启动Hive的JDBC服务并使用IDE连…

1天前

大数据

【大数据】Docker部署HMS(Hive Metastore Service)并使用Trino访问Minio

本文参考链接置顶： Presto使用Docker独立运行Hive Standalone Metastore管理MinIO（S3）_hive minio_BigDataToAI的博客…

1天前

大数据

[Hive] INSERT OVERWRITE DIRECTORY要注意的问题

在使用Hive的INSERT OVERWRITE语句时，需要注意以下问题：数据覆盖：INSERT OVERWRITE语句会覆盖目标目录中的数据。因此，在执行该语句之前，请确保目标…

1天前

Hive数据倾斜的原因以及常用解决方案

在Hadoop平台的hive数据库进行开发的时候，数据倾斜也是比较容易遇到的问题，这边文章对数据倾斜的定义以及产生的原因、对应的解决方案进行学习。一、数据倾斜的定义数据倾斜：数…

大数据 1天前

大数据

大数据项目实战-招聘网站职位分析

目录第一章：项目概述 1.1项目需求和目标 1.2预备知识 1.3项目架构设计及技术选取 1.4开发环境和开发工具 1.5项目开发流程第二章：搭建大数据集群环…

1天前

大数据

大数据Hadoop之——部署hadoop+hive+Mysql环境（window11）

目录一、安装JDK8 1）JDK下载地址 2）设置环境变量二、Hadoop安装（window10环境） 1）下载Hadoop3.1.3 2）Hadoop配置环境变量 3）在ha…

1天前

大数据

使用hive sql 为hive增加或者创建自增列，自增id的五种方式

*注意：此篇完全是废话，是错误演示文档我的原始查询语句展示和表展示。 select channelCount, intBuffer[0] data1 from vibration…

1天前