hadoop

【头歌】大数据从入门到实战 – 第2章分布式文件系统HDFS

第1关：HDFS的基本操作任务描述本关任务：使用 Hadoop 命令来操作分布式文件系统。编程要求在右侧命令行中启动 Hadoop ，进行如下操作。在 HDFS 中创建 …

大数据 1天前

大数据

基于hadoop的邮政数据分析系统毕业设计附源码46670

Hadoop 基于hadoop的邮政数据分析系统摘要为促进邮政业务的发展，充分、合理、高效的使用邮政的各类资源，有效的开展邮政数据分析系统，指导本省业务、管理及营销工作，邮政将…

1天前

大数据

大数据分析基于Hadoop全国天气可视化分析系统

收藏关注不迷路，源码文章末文章目录一、项目介绍二、开发环境三、功能介绍 3.2功能需求分析 3.2.1前台用户功能 3.2.2后台管理员功能四、核心代码五、效果图六、…

1天前

大数据

Hive09

HIVE函数系统内置函数 1）查看系统自带的函数 hive> show functions; 2）显示自带的函数的用法 hive> desc function upp…

1天前

【hive】hive修复分区或修复表以及msck命令的使用

【hive】hive修复分区或修复表以及msck命令的使用文章目录【hive】hive修复分区或修复表以及msck命令的使用问题原因：解决方法： msck命令解析：例…

大数据 1天前

大数据

大数据——HDFS(分布式文件系统）

一，分布式系统概述 Hadoop的两大核心组件 HDFS（Hadoop Distributed Filesystem）：是一个易于扩展的分布式文件系统，运行在成百上千台低成本的机…

1天前

搭建hadoop初次格式化格式化了很多次报错解决方案（亲测好用）

在搭建完hadoop集群时，初次启动HDFS集群，需要对主节点进行格式化操作，其本质是清理和做一些准备工作，因为此时的HDFS在物理上还是存在的。而且主节点格式化操作只能进行一次。…

大数据 1天前

大数据

真·保姆级——在VMware的Ubuntukylin上进行Hadoop单机/伪分布式安装时安装VMware Tools后虚拟机与物理机之间无法传输文件和复制粘贴的问题（附Ubuntu更改默认登录用户）

目录一、前言二、版本信息三、hadoop用户创建 1.创建hadoop用户 2.在创建hadoop用户后对系统进行重启四、解决办法 4.1 更改默认登陆用户 4.2 安装V…

1天前

大数据

一篇文章带你学会Hadoop-3.3.4集群部署

目录编辑一、Hadoop集群部署二、基础设施配置 2.1 设置网络 2.1.1 设置主机名称 2.1.2 设置hosts配置文件 2.1.3 关闭防火墙 2.1.4 关…

1天前

大数据

StreamPark + PiflowX 打造新一代大数据计算处理平台

🚀 什么是PiflowX PiFlow 是一个基于分布式计算框架 Spark 开发的大数据流水线系统。该系统将数据的采集、清洗、计算、存储等各个环节封装成组件，以所…

1天前

如何使用 Hive 进行自然语言处理

1.背景介绍自然语言处理(NLP，Natural Language Processing)是人工智能领域的一个重要分支，其主要目标是让计算机能够理解、生成和翻译人类语言。自然语言…

大数据 1天前

大数据

Hadoop 高可用集群完全分布式安装教程一篇就够用（zookeeper、spark、hbase、mysql、hive)

Hadoop 高可用集群完全分布式安装教程一篇就够用（zookeeper、spark、hbase、mysql、hive）写在之前，Hadoop完全分布式集群资源配置规划情况一、…

1天前

数据仓库与Hadoop：如何实现大规模数据处理

1.背景介绍数据仓库和Hadoop都是处理大规模数据的重要技术，它们在现代数据科学和人工智能中发挥着至关重要的作用。数据仓库是一种用于存储和管理大量历史数据的系统，主要用于数据分…

大数据 1天前

大数据

Hadoop-MapReduce-YarnChild启动篇

一、源码下载下面是hadoop官方源码下载地址，我下载的是hadoop-3.2.4，那就一起来看下吧 Index of /dist/hadoop/core 二、上下文在上一篇…

1天前

Hive的四种排序方法

Hive的四种排序方法 hive排序方法,hive的排序方式 hive有四种排序方法: ORDER BY 、SORT BY 、DISTRIBUTE BY 、CLUSTER BY 0…

大数据 1天前