草庐IT

preservesPartitioning

全部标签

hadoop - 当映射器输出被大多数排序时最小化随机播放

我有一个map-reduce过程,其中映射器从一个按键排序的文件中获取输入。例如:1...2...2...3...3...3...4...然后它得到转换,99.9%的键彼此保持相同顺序,其余99%接近。因此,以下可能是对上述数据运行maptask的输出:a...c...c...d...e...d...e...因此,如果您可以确保reducer接受一系列输入并将该reducer放在大多数输入已经位于的同一节点中,则洗牌将需要非常少的数据传输。例如,假设我对数据进行了分区,以便a-d由一个reducer处理,而e-g由下一个reducer处理。然后,如果a-d可以在处理1-4映射的同一节点