一、背景二、概述三、下线流程与原理1.读取待下线节点列表2.判断节点下线模式3.设置超时时间4.RMNode处理下线事件5.监控节点的状态、下线节点四、相关的Yarn集群配置 一、背景 接手部门Hadoop和Flink集群半年了,一直忙着上云的事儿,很少有时间去琢磨运维的事儿。上完云之后,老板着重强调要稳定,尤其是Flink集群,稳定性是实时任务最重要的指标。因为我们是FlinkonYarn的模式,Yarn的节点上线和下线其实就是两行命令的事儿,但是Flink集群就不能这么做了。 我们的机器配置比较高,一台机器上可能跑着上百个Flink任务的Taskmanager或JobManager