草庐IT

hadoop - 以 ORCFile 格式创建输出

我需要创建ORCFile格式的输出。根据此页面(http://hortonworks.com/blog/orcfile-in-hdp-2-better-compression-better-performance/),它是最好的。有问题吗?1)我应该使用什么编解码器来创建ORCFile格式的文件?2)以这种格式创建的文件是否可通过使用-text选项读取(例如hadoopfs-cat-text/tmp/a.orc3)还有其他建议吗?使用这种格式是否为时过早?优点和缺点?谢谢。 最佳答案 要在Hive的ORCFile中创建数据,只需在表

hadoop - 如何在 MapReduce 中使用 ORCFile 输入/输出格式?

我需要实现一个基于ORCFileI/O格式的自定义I/O格式。我该怎么做?具体来说,我需要一种方法在我的源代码中包含ORCFile库(这是一个自定义的Pig实现)并使用ORCFile输出格式写入数据,然后使用ORCFile输入格式读回数据。 最佳答案 您需要创建InputFormat的子类类(或FileInputFormat,取决于文件的性质)。只需在谷歌上搜索HadoopInputFormat,您就会发现大量关于如何创建您自己的InputFormat类的文章和教程。 关于hadoop-