草庐IT

LzoTextInputFormat

全部标签

Hadoop 透明地处理压缩,但不拆分 LZO

在使用TextInputFormat时,Hadoop似乎透明地处理压缩(这是什么时候引入的,我不记得是在0.20.203上)。不幸的是,当使用LZO压缩时,Hadoop不使用LZO索引文件来使文件可拆分。但是,如果我将输入格式设置为com.hadoop.mapreduce.LzoTextInputFormat,文件将被拆分。是否可以配置Hadoop在使用TextInputFormat时解压缩LZO文件并拆分它们? 最佳答案 我刚遇到类似的问题,这是我的理解:您想在代码中使用LzoTextInputFormat。如果你想处理lzo和非

Java Hadoop-lzo 已找到接口(interface),但类是预期的 LzoTextInputFormat

我正在尝试使用Hadoop-LZO包(使用步骤here构建)。似乎一切正常,因为我能够将我的lzo文件转换为索引文件(按预期返回big_file.lzo.index):hadoopjar/path/to/your/hadoop-lzo.jarcom.hadoop.compression.lzo.LzoIndexerbig_file.lzo然后我将在我的mapreduce作业中使用这些文件(使用big_file.lzo.index作为输入):importcom.hadoop.mapreduce.LzoTextInputFormat;....JobjobConverter=newJob(c