大数据组件配置–Flink

系统环境为 CentOS 7.5 版本。

  • 安装 Java 8。

  • 安装 Hadoop 集群,Hadoop 建议选择 Hadoop 2.7.5 以上版本。

  • 配置集群节点服务器间时间同步以及免密登录,关闭防火墙。

  • flink版本flink-1.14.0。

  • Scala版本scala_2.12。

flink安装包:flink-1.14.0-bin-scala_2.12.tgz

安装包位置:/opt/software/flink-1.14.0-bin-scala_2.12.tgz

解压位置:/opt/module/

单节点模式(不推荐)

解压压缩包

最简单的启动方式,其实是不搭建集群,直接本地启动。本地部署非常简单,直接解压安装包就可以使用,不用进行任何配置;一般用来做一些简单的测试

tar -zxvf /opt/software/flink-1.14.0-bin-scala_2.12.tgz -C /opt/module/

进入解压目录

cd /opt/module/flink-1.14.0/

启动/关闭集群

启动Hadoop集群

dfs-start.sh
yarn-start.sh

启动/停止flink集群

./bin/start-cluster.sh
./bin/stop-cluster.sh

查看集群运行结果:

[root@bigdata1 flink-1.14.0]# jps

1992 StandaloneSessionClusterEntrypoint

2269 TaskManagerRunner

2381 Jps

 访问web页面

https://bigdata1:8081

节点位于bigdata1

默认端口号为8081

大数据组件配置--Flink

集群模式(不推荐)

Flink 是典型的 Master-Slave 架构的分布式数据处理框架,其中 Master 角色对应着JobManager,Slave 角色则对应 TaskManager

集群角色分配:

节点服务器 bigdata1 bigdata2 bigdata3
角色 JobManager TaskManager TaskManager

 解压压缩包

tar -zxvf /opt/software/flink-1.14.0-bin-scala_2.12.tgz -C /opt/module/

进入解压目录

cd /opt/module/flink-1.14.0/

修改配置文件

flink-conf.yaml

vim /flink-1.14.0/conf/flink-conf.yaml

33行修改为主节点

jobmanager.rpc.address: bigdata1

workers

vim /flink-1.14.0/conf/workers

删除原有内容

bigdata2
bigdata3

masters

vim /flink-1.14.0/conf/masters

bigdata1:8081

分发安装目录

退回到flink-1.14.0/的上级目录

scp -r flink-1.14.0/ bigdata2:/opt/module/
scp -r flink-1.14.0/ bigdata3:/opt/module/

启动集群

[root@bigdata1 flink-1.14.0]# ./bin/start-cluster.sh

看看各节点启动状态

============ bigdata1 ===========

3477 StandaloneSessionClusterEntrypoint

============ bigdata2 ===========

1865 TaskManagerRunner

============ bigdata3 ===========

1868 TaskManagerRunner

访问web页面

https://bigdata1:8081

大数据组件配置--Flink

Flink on Yarn模式(生产推荐)

YARN
上部署的过程是:客户端把
Flink
应用提交给
Yarn

ResourceManager,

Yarn

ResourceManager
会向
Yarn

NodeManager
申请容器。在这些容器上,
Flink
会部署

27
JobManager

TaskManager
的实例,从而启动集群。
Flink
会根据运行在
JobManger
上的作业所需要的 slots
数量动态分配
TaskManager
资源。

解压压缩包

tar -zxvf /opt/software/flink-1.14.0-bin-scala_2.12.tgz -C /opt/module/

进入解压目录

cd /opt/module/flink-1.14.0/

配置环境变量

vim /etc/profile.d/my_env.sh

#FLINK_YARN
HADOOP_HOME=/opt/module/hadoop-3.1.3
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
export HADOOP_CONF_DIR=${HADOOP_HOME}/etc/hadoop
export HADOOP_CLASSPATH=`hadoop classpath`

分发配置

分发环境变量

scp /etc/profile.d/my_env.sh bigdata2:/etc/profile.d/my_env.sh
scp /etc/profile.d/my_env.sh bigdata3:/etc/profile.d/my_env.sh

分发解压包

scp -r /opt/module/flink-1.14.0/ bigdata2:/opt/module/
scp -r /opt/module/flink-1.14.0/ bigdata3:/opt/module/

使用环境变量

所有节点刷新变量

source /etc/profile

启动 Hadoop 集群

包括 HDFS 和 YARN

start-dfs.sh
start-yarn.sh

启动Flink集群

执行脚本命令向 YARN 集群申请资源,开启一个 YARN 会话,启动 Flink 集群。

bin/yarn-session.sh -nm test -d
  • -d:分离模式,如果你不想让 Flink YARN 客户端一直前台运行,可以使用这个参数,

即使关掉当前对话窗口,YARN session 也可以后台运行。

  • -jm(–jobManagerMemory):配置 JobManager 所需内存,默认单位 MB。

  • -nm(–name):配置在 YARN UI 界面上显示的任务名。

  • -qu(–queue):指定 YARN 队列名。

  • -tm(–taskManager):配置每个 TaskManager 所使用内存。

运行结果:

大数据组件配置--Flink

访问web页面 

复制启动后生成的web链接这里是 http://bigdata2:37096

conf文件夹中配置文件解读

vim flink-conf.yaml

#flink-1.14.0/conf/flink-conf.yaml ​

#flink-1.14.0/conf/flink-conf.yaml
​
jobmanager.rpc.address: localhost #jobmanager通用配置(主机名)

jobmanager.rpc.port: 6123 #jobmanager通用配置(端口号)
​
jobmanager.memory.process.size: 1600m #jobmanager内存分配

taskmanager.memory.process.size: 1728m #taskmanager内存分配

taskmanager.memory.flink.size: 1280m #可选taskmanager内存分配(不包括进程)不推荐与上面同时配置

​taskmanager.numberOfTaskSlots: 1 #taskmanager任务槽数量(并行执行的数量能力)

parallelism.default: 1 #并行度(真正运行数量)

vim masters

#flink-1.14.0/conf/masters
localhost:8081 #jobmanager运行端:端口号

vim workers

#flink-1.14.0/conf/workers

localhost #taskmanager运行端

本文来自网络,不代表协通编程立场,如若转载,请注明出处:https://net2asp.com/22b064e086.html