spark3使用hive zstd压缩格式总结

1天前 • 大数据

ZSTD（全称为Zstandard）是一种开源的无损数据压缩算法，其压缩性能和压缩比均优于当前Hadoop支持的其他压缩格式，本特性使得Hive支持ZSTD压缩格式的表。Hive支持基于ZSTD压缩的存储格式有常见的ORC，RCFile，TextFile，JsonFile，Parquet，Squence，CSV。

ZSTD压缩格式的建表方式如下：

ORC存储格式建表时可指定TBLPROPERTIES(“orc.compress”=“zstd”)：

create table tab_1(...) stored as orc TBLPROPERTIES("orc.compress"="zstd");

Parquet存储格式建表可指定TBLPROPERTIES(“parquet.compression”=“zstd”)：

create table tab_2(...) stored as parquet TBLPROPERTIES("parquet.compression"="zstd");

其他格式或通用格式建表可执行设置参数指定compress,codec为“org.apache.hadoop.io.compress.ZStandardCode”：

set hive.exec.compress.output=true;

set mapreduce.map.output.compress=true;

set mapreduce.map.output.compress.codec=org.apache.hadoop.io.compress.ZStandardCodec;

set mapreduce.output.fileoutputformat.compress=true;

set mapreduce.output.fileoutputformat.compress.codec=org.apache.hadoop.io.compress.ZStandardCodec;

set hive.exec.compress.intermediate=true;

create table tab_3(...) stored as textfile;

说明：

ZSTD压缩格式的表和其他普通压缩表的SQL操作没有区别，可支持正常的增删查及聚合类SQL操作。

写出的文件使用zstd压缩，spark3才开始支持

–conf spark.sql.parquet.compression.codec=zstd

本文来自网络，不代表协通编程立场，如若转载，请注明出处：https://net2asp.com/9b6f7d7b2d.html

hive 大数据数据仓库

赞 (0)

请求后端出现“Content type ‘application/octet-stream‘not supported“错误解决方案

« 上一篇 1天前

matlab用plot作图显示点的坐标/标注点的坐标/对图像进行标注

下一篇 » 1天前

数据库

Mysql – 常用插入数据的三种方法详解及练习

目录 🥙8.1.1 mysql中常用的三种插入数据的语句 1. insert into – 插入数据 2. replace into – 插…

1天前
数据库

打开JSON文件的六种方法，总有一种适合你

JSON（JavaScript Object Notation）是从JavaScript派生的一个独立于语言的文件。JSON文件是纯文本文件，而不是二进制代码。这种文件格式是可读的…

1天前
数据库

【开源项目推荐】通用SQL数据血缘分析工具——Sqllineage

大家好，我是独孤风，从本周开始，争取每周为大家带来一个优秀的开源项目推荐。开源项目不仅促进了技术的发展和普及，还为全球范围内的开发者和用户社区建立了一个共享知识、协作和创新的平台…

1天前
数据库

【PG】PostgreSQL 目录结构

目录 1 软件安装目录 2 数据文件目录 base/：存储每个数据库的基本数据文件 global/：包含了全局性质的系统表空间文件 pg_tblspc/：包含了表空间的符号链接 p…

1天前
数据库

【Genshin私服】Grasscutter部署全流程

前言本文写于3.0时期，内容具有时效性，但方法通用注意！！本教程是给具有一定电脑操作能力的人使用，如果你单纯只是想玩私服，并不会使用电脑等工具来自行安装，那么你可以私聊本人，…

1天前
数据库

HBuilderX修改manifest.json设置，解决跨域问题（CORS、Cross-Origin）

搭建一个前台uniapp，后台springboot的开发环境时，遇到了跨域问题。 console提示错误信息： Access to XMLHttpRequest at &#8216…

1天前
数据库

Redis Streams在Spring Boot中的应用：构建可靠的消息队列解决方案【redis实战二】

欢迎来到我的博客，代码的世界里，每一行都是一个故事 Redis Streams在Spring Boot中的应用：构建可靠的消息队列解决方案引言前言Redis Streams的基本概…

1天前
数据库

Redis的redis-cli客户端工具的使用

一、redis-cli的位置 server-lic是Redis默认的客户端工具，此工具在Redis的安装目录下二、连接redis 1、直接连接如果服务器是在本机，并且端…

1天前
数据库

实现目标检测中的数据格式自由（labelme json、voc、coco、yolo格式的相互转换）

在进行目标检测任务中，存在labelme json、voc、coco、yolo等格式。labelme json是由anylabeling、labelme等软件生成的标注格式、voc…

1天前
数据库

mysql 开启远程连接（windows）

mysql版本：MySQL Server 5.7 1、开放防火墙端口 2、配置 MySQL 服务的用户权限打开 cmd 输入以下命令登录 mysql，接着输入密码，回车 my…

1天前