WholeFileRecordReader

这似乎是一个非常常见的用例，但在Hadoop中很难做到(使用WholeFileRecordReader类是可能的)。在Dumbo或Pig中有可能吗？有谁知道使用Dumbo或Pig将整个文件作为maptask处理的方法吗？最佳答案 WholeFileRecordReader表示不拆分输入文件？如果是这样，将mapred.min.split.size定义为一个非常大的值，mapreduce和Pig都会接受它。关于python-使用Python代码处理Hadoop中的整个文件(最好在Dum