chrislusf_草庐IT

一些机器的参数是通过网络服务测量并上传到HDFS的。每次测量的参数值都保存在一个文件中，其中一次测量平均有1000个值。问题是-有大量文件。只有一定数量的文件用于MapReduce作业(例如，上个月的测量值)。因此我无法将它们全部合并到一个大的序列文件中，因为不同的时间需要不同的文件。我知道拥有大量小文件是不好的，因为NameNode包含HDFS上所有这些文件的路径(并将其保存在内存中)，另一方面，每个小文件都会产生一个Mapper创作。如何避免这个问题？最佳答案迟到的答案:您可以使用SeaweedFShttps://githu