LzoTextInputFormat

Hadoop 透明地处理压缩，但不拆分 LZO

在使用TextInputFormat时，Hadoop似乎透明地处理压缩(这是什么时候引入的，我不记得是在0.20.203上)。不幸的是，当使用LZO压缩时，Hadoop不使用LZO索引文件来使文件可拆分。但是，如果我将输入格式设置为com.hadoop.mapreduce.LzoTextInputFormat，文件将被拆分。是否可以配置Hadoop在使用TextInputFormat时解压缩LZO文件并拆分它们？最佳答案我刚遇到类似的问题，这是我的理解:您想在代码中使用LzoTextInputFormat。如果你想处理lzo和非

Java Hadoop-lzo 已找到接口(interface)，但类是预期的 LzoTextInputFormat

我正在尝试使用Hadoop-LZO包(使用步骤here构建)。似乎一切正常，因为我能够将我的lzo文件转换为索引文件(按预期返回big_file.lzo.index):hadoopjar/path/to/your/hadoop-lzo.jarcom.hadoop.compression.lzo.LzoIndexerbig_file.lzo然后我将在我的mapreduce作业中使用这些文件(使用big_file.lzo.index作为输入):importcom.hadoop.mapreduce.LzoTextInputFormat;....JobjobConverter=newJob(c