草庐IT

一年省七位数,得物自建HFDS在 Flink Checkpoint 场景下的应用实践

1、背景随着阿里云Flink实例的迁移下云以及新增需求接入,自建Flink平台规模逐渐壮大,当前总计已超4万核运行在自建的K8S集群中,然而Flink任务数的增加,特别是大状态任务,每次Checkpoint时会产生脉冲式带宽占用,峰值流量超过100Gb/s,早期使用阿里云OSS作为Checkpoint数据存储,单个Bucket每1P数据量只有免费带宽10Gb/s,超出部分单独计费,当前规模每月需要增加1xw+/月。为了控制这部分成本,得物开展了自建HDFS在FlinkCheckpoint场景下的落地工作,实现年度成本节省xxx万元。此次分享自建HDFS在实时计算checkpoint场景的实践经