preservesPartitioning

我有一个map-reduce过程，其中映射器从一个按键排序的文件中获取输入。例如:1...2...2...3...3...3...4...然后它得到转换，99.9%的键彼此保持相同顺序，其余99%接近。因此，以下可能是对上述数据运行maptask的输出:a...c...c...d...e...d...e...因此，如果您可以确保reducer接受一系列输入并将该reducer放在大多数输入已经位于的同一节点中，则洗牌将需要非常少的数据传输。例如，假设我对数据进行了分区，以便a-d由一个reducer处理，而e-g由下一个reducer处理。然后，如果a-d可以在处理1-4映射的同一节点