hdfs
-
一百六十八、Kettle——用海豚调度器定时调度从Kafka到HDFS的kettle任务脚本(持续更新追踪、持续完善)
一、目的 在实际项目中,从Kafka到HDFS的数据是每天自动生成一个文件,按日期区分。而且Kafka在不断生产数据,因此看看kettle是不是需要时刻运行?能不能按照每日自动生成…
-
hadoop 拒绝连接
[root@node001 ~]# hadoop fs -ls /path/to/directory ls: Call From node001/192.168.137.155 t…
-
一百七十二、Flume——Flume采集Kafka数据写入HDFS中(亲测有效、附截图)
一、目的 作为日志采集工具Flume,它在项目中最常见的就是采集Kafka中的数据然后写入HDFS或者HBase中,这里就是用flume采集Kafka的数据导入HDFS中 二、各工…
-
hadoop集群启动master节点jps后没有namenode解决方案
hadoop集群启动jps后没有namenode 启动集群jps后出现: 1.关闭集群 stop-all.sh 2.切换到hadoop的目录下将logs与tmp文件与内容删除并创建…
-
大数据 – Hadoop系列《三》- HDFS(分布式文件系统)概述
🐶5.1 hdfs的概念 HDFS分布式文件系统,全称为:Hadoop Distributed File System。 它是一个文件系统,用于存储文件,通过目录树…
-
xslx表格文件采集到hdfs流程&hdfs数据 load到hive表
xslx表格文件采集到hdfs 咱们就是说,别的话不多说,直接开始实操 xslx在win系统上,打开后另存为csv文件格式,上传到linux系统中。(注意下编码格式,不然后面就是中…
-
hdfs常用端口号、常用配置文件,集群时间同步
目录 常用端口号 hadoop3.x HDFS NameNode 内部通常端口:8020/9000/9820 HDFS NameNode 对用户的查询端口:9870 历史服务器:1…
-
Hadoop理论及实践-HDFS的Namenode及Datanode(参考Hadoop官网)
HDFS有什么特点,被设计做什么 Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件…
-
【HDFS实战】HDFS上的数据均衡
HDFS上的数据均衡简介 文章目录 HDFS上的数据均衡简介 重新平衡多DN之间的数据 相关命令 重新平衡单DN内磁盘间的数据 相关命令 Plan Execute Query Ca…
-
大数据02-HDFS的使用和基本命令
目录 Hadoop分布式文件系统 HDFS简介 HDFS的体系结构 HDFS的使用和基本命令 学习参考 Hadoop分布式文件系统 HDFS简介 HDFS(Hadoop Dis…
-
大数据开发之电商数仓(hadoop、flume、hive、hdfs、zookeeper、kafka)
第 1 章:数据仓库 1.1 数据仓库概述 1.1.1 数据仓库概念 1、数据仓库概念: 为企业制定决策,提供数据支持的集合。通过对数据仓库中数据的分析,可以帮助企业,改进业务流程…
-
Python语言连接访问Kerberos认证下的HA HDFS
「目的描述」 此篇文章目的是使用Python语言对启用Kerberos、High Availability的HDFS文件系统进行访问,主要介绍KerberosClient、pyar…
-
[AIGC 大数据基础] 浅谈hdfs
HDFS介绍 什么是HDFS? HDFS(Hadoop Distributed File System)是Apache Hadoop生态系统的一部分,是一个分布式文件系统。它被设计…
-
NameNode是Hadoop Distributed File System(HDFS)中的主服务器
NameNode是Hadoop Distributed File System(HDFS)中的主服务器,负责管理文件系统的元数据。以下是NameNode的具体职责: 文件系统的一致…
-
第1关:数据清洗MapReduce综合应用案例 — 招聘数据清洗
根据提示,在右侧编辑器补充代码,对数据按照一定规则进行清洗。 数据说明如下:data.json; 数据所在位置:/root/data/data.json; { “id”:4, “c…
