hadoop

大数据

Hadoop基本概论

目录一、大数据概论 1.大数据的概念 2.大数据的特点 3.大数据应用场景二、Hadoop概述 1.Hadoop定义 2.Hadoop发展历史 3.Hadoop发行版本 4.H…

1天前

大数据

hadoop集群搭建、spark集群搭建、pyspark搭建（linux+window）

1、前言本文记录学习过程中Hadoop、zookeeper、spark集群搭建，主要为pyspark库服务（具体为window上pyspark环境和pyspark库，linux上…

1天前

大数据篇 | Hadoop、HDFS、HIVE、HBase、Spark之间的联系与区别

文章目录 1、Hadoop 2、HDFS 3、HIVE 4、HBase 5、Spark 1、Hadoop Hadoop是一个开源的分布式计算框架，用于存储和处理大规模数据集。它提供…

大数据 1天前

大数据

湖仓一体电商项目（十九）：业务实现之编写写入DWS层业务代码

文章目录业务实现之编写写入DWS层业务代码一、代码编写二、创建Iceberg-DWS层表

1天前

大数据

基于Hadoop的网上购物行为大数据分析及预测系统【flask+echarts+机器学习】前后端交互

有需要本项目或者部署的系统可以私信博主，提供远程部署和讲解本研究基于淘宝用户行为的开源数据展开大数据分析研究，通过Hadoop大数据分析平台对阿里天池公开的开源数据集进行多维度的…

1天前

大数据

【kettle】pdi/data-integration 集成kerberos认证连接hdfs、hive或spark thriftserver

一、背景 kerberos认证是比较底层的认证，掌握好了用起来比较简单。 kettle完成kerberos认证后会存储认证信息在jvm中，之后直接连接hive就可以了无需提供额外的…

1天前

大数据

Hadoop分布式文件系统（HDFS）和Amazon S3的区别是什么？

Hadoop分布式文件系统（HDFS）和Amazon S3（Simple Storage Service）都是用于存储大规模数据的分布式存储系统，但它们有一些关键的区别：设计目标…

1天前

大数据

Flink的部署模式：Local模式、Standalone模式、Flink On Yarn模式

Flink常见的部署模式 Flink部署、执行模式 Flink的部署模式 Flink的执行模式 Local本地模式下载安装启动、停止Flink 提交测试任务停止作业 Stan…

1天前

大数据

Hive插入数据警告：Hive-on-MR is deprecated in Hive 2 and may not be available in the future versions

Hive插入表数据持续等待警告问题解决 1、问题描述 2、原因分析 3、问题解决 1、问题描述启动Hadoop，使用hiveserver2启动Hive的JDBC服务并使用IDE连…

1天前

大数据

Hadoop理论及实践-HDFS读写数据流程（参考Hadoop官网）

NameNode与DataNode回顾主节点和副本节点通常指的是Hadoop分布式文件系统（HDFS）中的NameNode和DataNode。 NameNode（主节点）：Nam…

1天前

大数据

在linux安装单机版hadoop-3.3.6

一、下载hadoop https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/core/hadoop-3.3.6/ 二、配置环境变量 …

1天前

Hadoop入门概述

Hadoop 是一个开源的分布式计算框架，主要用于处理和存储大规模数据集。以下是学习Hadoop时需要掌握的一些关键概念和技术要点： Hadoop 概述 Hadoop是什么： Ha…

大数据 1天前

大数据

[Hive] INSERT OVERWRITE DIRECTORY要注意的问题

在使用Hive的INSERT OVERWRITE语句时，需要注意以下问题：数据覆盖：INSERT OVERWRITE语句会覆盖目标目录中的数据。因此，在执行该语句之前，请确保目标…

1天前

Hive数据倾斜的原因以及常用解决方案

在Hadoop平台的hive数据库进行开发的时候，数据倾斜也是比较容易遇到的问题，这边文章对数据倾斜的定义以及产生的原因、对应的解决方案进行学习。一、数据倾斜的定义数据倾斜：数…

大数据 1天前

大数据

大数据项目实战-招聘网站职位分析

目录第一章：项目概述 1.1项目需求和目标 1.2预备知识 1.3项目架构设计及技术选取 1.4开发环境和开发工具 1.5项目开发流程第二章：搭建大数据集群环…

1天前