草庐IT

如何给 HDFS 「减肥」之数据清理

Hadoop平台运行至今,前期处于放任自由的状态,后期才开始稍加管控,指定相关数据使用规范。日积月累,数据规模越来越大,元数据暴增,Namenoderpc频繁超时告警,NamenodeHA切换也较为频繁。企业的预算不可能无限增加,所以一个良好的平台规范以及定时数据清理机制,对平台的来说至关重要,属于非常实在的降本增效工作。这里记录下我们组的近期制定的HDFS「瘦身计划」。1.HDFS「瘦身计划」通过脚本代码,分析导出以下四类数据,按目录导出成文件联系各个业务,依据我们提供的数据,进行清理工作目录不存在和空表:项目里面有空表和表对应的hdfs路径不存在的情况,需要删除N个月零增长:项目里面有N个
12