草庐IT

chrislusf

全部标签

hadoop - 大量小文件Hadoop

一些机器的参数是通过网络服务测量并上传到HDFS的。每次测量的参数值都保存在一个文件中,其中一次测量平均有1000个值。问题是-有大量文件。只有一定数量的文件用于MapReduce作业(例如,上个月的测量值)。因此我无法将它们全部合并到一个大的序列文件中,因为不同的时间需要不同的文件。我知道拥有大量小文件是不好的,因为NameNode包含HDFS上所有这些文件的路径(并将其保存在内存中),另一方面,每个小文件都会产生一个Mapper创作。如何避免这个问题? 最佳答案 迟到的答案:您可以使用SeaweedFShttps://githu