草庐IT

mapoutput

全部标签

hadoop - 使用hadoop的mapreduce中溢出的记录是否应该始终等于mapinput记录或mapoutput记录?

我正在研究在hadoop中使用mapreduce的矩阵乘法示例。我想问一下,溢出记录是否应该始终等于mapinput和mapoutput记录。我有不同于mapinput和mapoutput记录的溢出记录这是我得到的其中一项测试的输出:ThreebythreetestIB=1KB=2JB=111/12/1413:16:22INFOinput.FileInputFormat:Totalinputpathstoprocess:211/12/1413:16:22INFOmapred.JobClient:Runningjob:job_201112141153_000311/12/1413:16:

java - 重新运行 Hadoop 作业,分区的 mapoutput 是否仍会转到相同的 Reducers?

在hadoop中,假设节点的数量是固定的(在运行期间没有服务器崩溃),如果我使用相同的分区器(例如,在映射输出的键上进行哈希分区)来分区映射器输出,并且我执行读取同一个数据集两次的作业。确定同一个key的数据会去同一个reducer吗?谢谢例如,我的map输出包含两行:键|值一个|任何东西乙|任何东西假设,我有两个reducer1和2。在第一次运行中,行“A|anything”进入reducer1,“B|anything”进入reducer2。如果我再次运行,是否有可能“A|anything”进入reducer2,而“B|anything”进入reducer1?谢谢!