hadoop
-
HIVE SQL 中 HQL 语句理解
简介: HQL DQL指的是 数据查询语句, 主要是对 表数据进行查询操作的. 和mysql对比: MySQL中 单表查询语句 完整格式如下: select di…
-
【大数据】HBase 中的列和列族
😊 如果您觉得这篇文章有用 ✔️ 的话,请给博主一个一键三连 🚀🚀🚀 吧 (点赞 🧡、关注 …
-
大数据实战(hadoop+spark+python):淘宝电商数据分析
一,运行环境与所需资源: 虚拟机:Ubuntu 20.04.6 LTS docker容器 hadoop-3.3.4 spark-3.3.2-bin-hadoop3 python,p…
-
窗口函数简介与总结
目录 什么是窗口函数 窗口函数的实现原理 窗口函数使用场景 常用的窗口函数有: 1. 窗口排序函数:ROW_NUMBER()、RANK()、DENSE_RANK(); 2. 窗口…
-
FAILED: HiveException java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.me
当hive-site.xml以及mysql等都配置好时,格式化元数据库进入hive,仍然报未格式化元数据库的错 hive> show databases; FAILED: Hive…
-
[DataX引擎配置错误,该问题通常是由于DataX安装错误引起,请联系您的运维解决 .]. – 在有总bps限速条件下,单个channel的bps值不能为空,也不能为非正数
目录 一、背景 二、报错 三、定位原因 四、解决办法 1.修改文件datax/conf/core.json 2.json内容中删除总限速的配置 五、参数说明 六、DataX提速优化…
-
Hadoop
参考资料 1. HDFS中的常用压缩算法及区别_大数据_王知无_InfoQ写作社区 2. orc格式和parquet格式对比-阿里云开发者社区 3.Hadoop 压缩格式 gzi…
-
hadoop 三种运行方式
一、本地运行方式 1 创建在hadoop-3.3.5文件下面创建一个wcinput文件夹 [antares@hadoop1 hadoop-3.3.5]$ mkdir wcinput…
-
【DolphinScheduler】datax读取hive分区表时,空分区、分区无数据任务报错问题解决
问题背景: 最近在使用海豚调度DolphinScheduler的Datax组件时,遇到这么一个问题:之前给客户使用海豚做的离线数仓的分层搭建,一直都运行好好的,过了个元旦,这几天突…
-
hive的应用场景
网站日志分析: 假设你运营一个大型网站,你可以将网站产生的日志数据导入到Hive中,然后通过执行Hive查询分析用户行为、访问模式、热门内容等。这有助于优化网站性能和改善用户体验。…
-
【Hadoop】Apache Hadoop YARN
🦄 个人主页——🎐开着拖拉机回家_Linux,Java基础学习,大数据运维-CSDN博客 🎐✨🍁 感谢点赞和关注 ,…
-
HIVE(三)+ 教育项目
目录 目录 分桶表 函数 空字符段赋值函数 CASE WHEN THEN ELSE END 多列变一列 一行变多行 窗口函数(开窗函数) 自定义函数 压缩和存储 文件存储格式 离…
-
SparkSQL
第1章 SparkSQL 概述 1.1 SparkSQL 是什么 Spark SQL 是 Spark 用于结构化数据(structured data)处理的 Spark 模块。 1…
-
二百一十九、Hive——HQL报错:Caused by: java.util.regex.PatternSyntaxException: Illegal repetition near index 1
一、目的 在海豚调度HQL的脚本任务时报错,Caused by: java.util.regex.PatternSyntaxException: Illegal repetitio…
-
Hive中的常用concat函数——concat函数、concat
1、concat() 1.1、用法:concat(str1,str2,str3,…) 连接参数的函数,返回结果为连接参数的字符串。如果有一个参数为NULL,则返回的结果为NULL。…
