草庐IT

SequenceFileInputFormat

全部标签

java - 如何为 SequenceFileInputFormat 定义映射函数的键和值输入?

我正在尝试理解一个示例hadoop项目。它有以下代码块jconf.setOutputKeyClass(Text.class);jconf.setOutputValueClass(Text.class);jconf.setInputFormat(SequenceFileInputFormat.class);来自thislink,我读到对于SequenceFileInputFormat,键和值是用户定义的。我需要为此实现RecordReader吗?我没有看到它在项目中实现。是否有任何默认分隔符用于将输入拆分为键值对? 最佳答案 您不必实

java - 增加 SequenceFileInputFormat 的分割数

我使用SequenceFileInputFormat作为我的map输入,其中键是文本,值是文本。共有106个文件,每个文件的大小在500MB到750MB之间。我查看了我的日志,其中显示拆分数为290。我想知道是否有办法增加拆分次数,因为我的作业运行时间很长。谢谢您的帮助。 最佳答案 您可以通过使用mapreduce.input.fileinputformat.split.maxsize属性减小每个拆分的最大大小来增加拆分的数量。要设置的值是以字节为单位的最大拆分大小。 关于java-增加

hadoop - 正确使用 SequenceFileInputFormat,映射中的键类型不匹配

我正在尝试运行电子书MahoutinAction中第6章(list6.1~6.4)中的推荐系统示例。有两个映射器/缩减器对。这是代码:映射器-1publicclassWikipediaToItemPrefsMapperextendsMapper{privatestaticfinalPatternNUMBERS=Pattern.compile("(\d+)");@Overridepublicvoidmap(LongWritablekey,Textvalue,Contextcontext)throwsIOException,InterruptedException{Stringline=v

java - 扩展 SequenceFileInputFormat 以包含文件名+偏移量

我希望能够创建一个自定义的InputFormat来读取序列文件,但另外公开记录所在文件中的文件路径和偏移量。退后一步,这里是用例:我有一个包含可变大小数据的序列文件。键大多是无关紧要的,值高达几兆字节,包含各种不同的字段。我想在elasticsearch中索引其中一些字段以及文件名和偏移量。这样,我就可以从elasticsearch中查询到那些字段,然后使用文件名和偏移量返回到序列文件并获取原始记录,而不是将整个东西存储在ES中。我将整个过程作为一个Java程序运行。SequenceFile.Reader类方便地提供了getPosition和seek方法来实现这一点。但是,最终会涉及到