hadoop

大数据

seatunnel-2.3.2 doris数据同步到hive(cdh-6.3.2)首次运行踩坑记录

seatunnel-2.3.2 doris数据同步到hive(cdh-6.3.2)首次运行报错解决，解决的报错如下： 1、java.lang.NoClassDefFoundErro…

1天前

算法结构

解决ERROR: Attempting to operate on hdfs namenode as root

一、遇到的问题：二、问题原因：这个错误提示表明你正在尝试以 root 用户身份操作 HDFS 的 Namenode，但是没有定义 HDFS_NAMENODE_USER 环境变量…

1天前

算法结构

基于HDFS实现的简易云盘系统（代码开源）

文章目录前言一、实验简介二、分析与设计 1. 功能需求分析： 2. 系统设计三、效果展示四、环境配置五、功能实现 1. 基础部分 2. 用户管理 3. 文件管理六、项…

1天前

大数据

Sqoop 安装配置（超详细）

文章目录 1.下载 2.解压 3.添加环境变量 4.配置 Sqoop 环境变量文件 5. MySQL 驱动 6. 拷贝 Hive 文件 7.验证 8.去除警告信息 9. Sqoop…

1天前

Hive DDL语法

Hive的语法和MySQL大部分都相同一、数据库操作 1.1、创建数据库 CREATE DATABASE [IF NOT EXISTS] database name [COMME…

大数据 1天前

Hive引擎MR、Tez、Spark

Hive引擎包括：默认MR、Tez、Spark 不更换引擎hive默认的就是MR。 MapReduce：是一种编程模型，用于大规模数据集（大于1TB）的并行运算。 Hive on …

大数据 1天前

大数据

软工大数据实验（手把手教你入门Hadoop、hbase、spark）

写在最前面，如果你只是来找答案的，那么很遗憾，本文尽量避免给出最后结果，本文适合Linux0基础学生，给出详细的环境配置过程，实验本身其实很简单，供大家一起学习交流。实验1 1．…

1天前

大数据

Hive基础和使用详解

文章目录一、启动hive 1. hive启动的前置条件 2. 启动方式一: hive命令 3. 方式二:使用jdbc连接hive 二、Hive常用交互命令 1. hive -he…

1天前

大数据

大数据技术之Hive基础知识及基础操作（一）

一、数据仓库数据仓库是一个面向主题的、集成的、相对稳定的、反应历史变化的数。据集合，用于支持管理决策。二、数据仓库的体系结构三、Hive简介 •Hive是一个构建于Hadoo…

1天前

大数据

数据清洗【大数据比赛长期更新】

数据清洗 1.题目分析使用Scala编写spark工程代码，将ods库中相应表数据全量抽取到Hive的dwd库中对应表中。表中有涉及到timestamp类型的，均要求按照yyyy…

1天前

大数据

hive on spark集群环境部署（彻底摆脱做毕设没环境）

#所需安装包下载路径 (1)mysql rpm包路径：https://downloads.mysql.com/archives/community/ connect路径：https…

1天前

大数据

elasticsearch-hadoop.jar 6.8版本编译异常

## 背景重新编译 elasticsearch-hadoop 包； GitHub – elastic/elasticsearch-hadoop at 6.8 编译 7…

1天前

大数据系统常用组件理解（Hadoop/hive/kafka/Flink/Spark/Hbase/ES）

一.Hadoop Hadoop是一个由Apache基金会所开发的分布式系统基础架构。 Hadoop 以一种可靠、高效、可伸缩的方式进行数据处理。 Hadoop的核心是yarn、HD…

大数据 1天前

大数据

大数据开发—阿里云ECS上搭建Hadoop伪分布式环境（下篇）

各位大佬、热爱大数据开发的朋友们：大家好！在上篇我已详细介绍了如何在阿里云ECS实例上搭建Hadoop伪分布式环境的前几步：JDK的安装、JDK环境变量的配置、Had…

1天前

大数据

【大数据-Hadoop】从入门到源码编译-概念篇

【大数据-Hadoop】从入门到源码编译-概念篇 Hadoop与大数据生态（一）Hadoop是什么？（二）Hadoop组成 1. HDFS 1.1 NameNode（nn） 1…

1天前