CompositeInputFormat

我正在使用CompositeInputFormat为hadoop作业提供输入。生成的拆分数是作为CompositeInputFormat(用于连接)输入的文件总数。作业完全忽略block大小和最大分割大小(同时从CompositeInputFormat获取输入)。这会导致MapTasks长时间运行，并且由于输入文件大于block大小而使系统变慢。是否有人知道可以通过哪些方式管理CompositeInputFormat的拆分数量？最佳答案不幸的是，CompositeInputFormat必须忽略block/拆分大小。在Compos