SequenceFileOutputFormat
全部标签 我有一个多阶段/作业mapreduce程序。我的第一个输入必须是TextInputFormat,最后一个输出必须是TextOutputFormat。我想要实现的是在第一个作业中将格式从Text转换为SequenceFile。因此:TextInputFormatJob1.execute()SequenceFileOutputFormatSequenceFileInputFormatJob2.execute()SequenceFileOutputFormat...SequenceFileInputFormatJobLast.execute()TextOutputFormat在所有示例中,我
我必须使用Snappy来压缩mapo/p和map-reduceo/p。此外,这应该是可拆分的。正如我在网上学习的那样,要使Snappy编写可拆分的o/p,我们必须在类似容器的格式中使用它。你能建议如何去做吗?我试着在网上找一些例子,但找不到一个。我正在使用Hadoopv0.20.203。谢谢。皮尤什 最佳答案 用于输出conf.setOutputFormat(SequenceFileOutputFormat.class);SequenceFileOutputFormat.setOutputCompressionType(conf,C
我有一份工作使用100个配置为setOutputFormat(SequenceFileOutputFormat.class);作业运行后,我可以通过以下方式组合所有零件文件吗?以下命令并让事情正常工作压缩?hadoopfs-cat输出/部分*>fullOutput如果不是,那么使用多个的首选方法是什么reducers,然后将它们的所有输出集中到一个文件中?非常感谢,--艺术 最佳答案 您使用的是什么压缩?对于某些编解码器,这肯定行不通。例如,Lzop编解码器在每个文件的开头都有标题,因此如果您只是加入文件,它们就会在其中散布标题。L