搭建完全分布式Hadoop

文章目录

一、Hadoop集群规划
二、在主节点上配置Hadoop
- （一）登录虚拟机
- （二）设置主机名
- （三）主机名与IP地址映射
- （四）关闭与禁用防火墙
- （五）配置免密登录
- （六）配置JDK
- （七）配置Hadoop
- - 1、上传安装包
  - 2、解压缩安装包
  - 3、配置环境变量
  - 4、编辑Hadoop环境配置文件 – hadoop-env.sh
  - 5、编辑Hadoop核心配置文件 – core-site.xml
  - 6、编辑HDFS配置文件 – hdfs-site.xml
  - 7、编辑MapReduce配置文件 – mapred-site.xml
  - 8、编辑YARN配置文件 – yarn-site.xml
  - 9、编辑数据节点文件 – workers
三、从主节点分发到从节点
- （一）从master节点分发到slave1节点
- - 1、分发JDK
  - 2、分发Hadoop
  - 3、分发环境配置文件
  - 4、刷新环境配置文件
  - 5、查看jdk和hadoop版本
  - 6、分发主机名IP地址映射文件
- （二）从master节点分发到slave2节点
- - 1、分发JDK
  - 2、分发Hadoop
  - 3、分发环境配置文件
  - 4、刷新环境配置文件
  - 5、查看jdk和hadoop版本
  - 6、分发主机名IP地址映射文件
四、格式化名称节点
五、启动Hadoop集群
六、初试HDFS Shell
- （一）查看目录
- - 1、命令
  - 2、演示
- （二）创建目录
- - 1、创建单层目录
  - - （1）命令
    - （2）演示
  - 2、创建多层目录
  - - （1）命令
    - （2）演示
- （三）上传文件
- - 1、命令
  - 2、演示
- （四）查看文件内容
- - 1、命令
  - 2、演示
- （五）删除文件
- - 1、命令
  - 2、演示
- （六）删除目录
七、查看Hadoop WebUI
八、运行MR应用 – 词频统计
九、关闭Hadoop集群

一、Hadoop集群规划

在这里插入图片描述

二、在主节点上配置Hadoop

（一）登录虚拟机

登录三个虚拟机

（二）设置主机名

在这里插入图片描述

（三）主机名与IP地址映射

执行命令：vim /etc/hosts

（四）关闭与禁用防火墙

在这里插入图片描述

（五）配置免密登录

在这里插入图片描述

（六）配置JDK

在这里插入图片描述

export JAVA_HOME=/usr/local/jdk1.8.0_231
export PATH=$JAVA_HOME/bin:$PATH
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar

（七）配置Hadoop

1、上传安装包

上传hadoop安装包
查看hadoop安装包

2、解压缩安装包

执行命令：tar -zxvf hadoop-3.3.4.tar.gz -C /usr/local
查看解压后的目录

3、配置环境变量

执行命令：vim /etc/profile

export HADOOP_HOME=/usr/local/hadoop-3.3.4export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATHexport HDFS_NAMENODE_USER=rootexport HDFS_DATANODE_USER=rootexport HDFS_SECONDARYNAMENODE_USER=rootexport YARN_RESOURCEMANAGER_USER=rootexport YARN_NODEMANAGER_USER=root

存盘退出，执行命令：source /etc/profile，让配置生效
查看hadoop版本，执行命令：hadoop version

4、编辑Hadoop环境配置文件 – hadoop-env.sh

进入hadoop配置目录，执行命令：cd $HADOOP_HOME/etc/hadoop
执行命令：vim hadoop-env.sh

export JAVA_HOME=/usr/local/jdk1.8.0_231export HADOOP_HOME=/usr/local/hadoop-3.3.4export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop

存盘退出，执行命令：source hadoop-env.sh，让配置生效

5、编辑Hadoop核心配置文件 – core-site.xml

执行命令：vim core-site

                fs.defaultFS        hdfs://master:9000                    hadoop.tmp.dir        /usr/local/hadoop-3.3.4/tmp

6、编辑HDFS配置文件 – hdfs-site.xml

执行命令：vim hdfs-site.xml

                dfs.namenode.name.dir        /usr/local/hadoop-3.3.4/tmp/namenode                    dfs.datanode.data.dir        /usr/local/hadoop-3.3.4/tmp/datanode                    dfs.namenode.secondary.http-address        master:50090                        dfs.namenode.http-address        0.0.0.0:9870                    dfs.replication        3                    dfs.permissions.enabled        false

7、编辑MapReduce配置文件 – mapred-site.xml

执行命令：vim mapred-site.xml

                mapreduce.framework.name        yarn

8、编辑YARN配置文件 – yarn-site.xml

执行命令：vim yarn-site.xml

                yarn.resourcemanager.hostname        master                    yarn.nodemanager.aux-services        mapreduce_shuffle                    yarn.nodemanager.vmem-check-enabled        false

9、编辑数据节点文件 – workers

执行命令：vim workers

三、从主节点分发到从节点

（一）从master节点分发到slave1节点

1、分发JDK

执行命令：scp -r $JAVA_HOME root@slave1:$JAVA_HOME（注意，拷贝目录，一定要加-r选项）
在slave1节点上查看拷贝的JDK目录

2、分发Hadoop

执行命令：scp -r $HADOOP_HOME root@slave1:$HADOOP_HOME
在slave1节点上查看拷贝的hadoop目录

3、分发环境配置文件

执行命令：scp /etc/profile root@slave1:/etc/profile

4、刷新环境配置文件

在slave1节点上执行命令：source /etc/profile

5、查看jdk和hadoop版本

在slave1节点上执行命令：java -version
在slave1节点上执行命令：hadoop version

6、分发主机名IP地址映射文件

执行命令：scp /etc/hosts root@slave1:/etc/hosts

（二）从master节点分发到slave2节点

1、分发JDK

执行命令：scp -r $JAVA_HOME root@slave2:$JAVA_HOME（注意，拷贝目录，一定要加-r选项）
在slave2节点上查看拷贝的JDK目录

2、分发Hadoop

执行命令：scp -r $HADOOP_HOME root@slave2:$HADOOP_HOME
在slave2节点上查看拷贝的hadoop目录

3、分发环境配置文件

执行命令：scp /etc/profile root@slave2:/etc/profile

4、刷新环境配置文件

在slave2节点上执行命令：source /etc/profile

5、查看jdk和hadoop版本

在slave2节点上执行命令：java -version
在slave2节点上执行命令：hadoop version

6、分发主机名IP地址映射文件

执行命令：scp /etc/hosts root@slave2:/etc/hosts

四、格式化名称节点

执行命令：hdfs namenode -format
common.Storage: Storage directory /usr/local/hadoop-3.3.4/tmp/namenode has been successfully formatted. 表明名称节点格式化成功。

五、启动Hadoop集群

启动hadoop服务，执行命令：start-all.sh
查看进程，执行命令：jps
如果缺少进程，大多是因为响应的配置文件有问题，请仔细对照检查
hadoop-env.sh没有刷新，导致HADOOP_CONF_DIR环境变量找到不到
core-site.xml，fs.defaultFS写成了fs.defaultFs，导致启动Hadoop之后，没有HDFS的三个进程：NameNode、SecondaryNameNode、DateNode