草庐IT

RecordReader

全部标签

hadoop - 在 MapReduce 中因为/n 读取被分解成两行的记录

我正在尝试编写一个自定义阅读器,用于读取具有定义字段数的记录(位于两行中)。例如1,2,3,4(","canbethereornot),5,6,7,8我的要求是读取记录并将其作为单个记录推送到映射器中,如{1,2,3,4,5,6,7,8}。请提供一些意见。更新:publicbooleannextKeyValue()throwsIOException,InterruptedException{if(key==null){key=newLongWritable();}//Currentoffsetisthekeykey.set(pos);if(value==null){value=newT

hadoop - 用于单行和多行日志的自定义 RecordReader

我正在尝试创建一个MR作业,它将更改通过Flume加载到HDFS中的日志文件的格式。我正在尝试将日志转换为一种格式,其中字段由“:::”分隔。例如date/timestamp:::log-level:::rest-of-log我遇到的问题是有些日志是单行的,有些是多行的,我需要在日志的其余字段中保持多行日志的完整性。我已经编写了一个自定义的InputFormat和RecordReader来尝试执行此操作(基本上只是修改了NLineRecordReader以追加行,直到它到达日期戳,而不是附加固定数量的行)。我用来格式化日志的MR作业似乎工作正常,但RecordReader似乎无法正常工

hadoop - 在 JobContext 中找不到工作信息

我在远程计算机上运行Java程序并尝试使用RecordReader对象读取拆分数据,但得到的是:Exceptioninthread"main"java.io.IOException:jobinformationnotfoundinJobContext.HCatInputFormat.setInput()notcalled?我已经调用了以下内容:_hcatInputFmt=HCatInputFormat.setInput(_myJob,db,tbl);然后创建RecordReader对象:_hcatInputFmt.createRecordReader(hSplit,taskContex

hadoop - Inputsplit、RecordReader & Map 实例和 Mapper 之间的数据流

如果我有一个包含1000行的数据文件......并且我在我的字数统计程序的map方法中使用了TextInputFormat。因此,数据文件中的每一行都将被视为一个拆分。RecordReader会将每一行(或拆分)作为(Key,Value)对提供给map()方法。根据我的理解..1000次map()方法应该为每一行或记录执行。表示将运行多少个Mappers?抱歉,在这里混淆了。map()方法只是mapper的一个实例,对吧。那么每个Mapper任务有多少个map实例是根据什么决定的???注意:当我为1000行数据执行WordCountMapReduce程序时。我看到Mappers的数量为

hadoop - 如何使 Hadoop MR 只读文件而不是输入路径中的文件夹

根据我们的要求,一个作业的输出将是另一个作业的输入。通过使用多输出概念,我们在输出路径中创建一个新文件夹并将这些记录写入文件夹。这是它的样子:OPFolder1/MultipleOP/SplRecords-m-0000*OPFolder1/part-m-0000*files当新作业使用输入作为OPFolder1时,我遇到以下错误org.apache.hadoop.hdfs.DistributedFileSystem.open(DistributedFileSystem.java:298)atorg.apache.hadoop.fs.FileSystem.open(FileSystem.

java - Hadoop MapReduce RecordReader 实现是否必要?

来自HadoopMapReduce上的Apache文档InputFormat界面:"[L]ogicalsplitsbasedoninput-sizeisinsufficientformanyapplicationssincerecordboundariesaretoberespected.Insuchcases,theapplicationhastoalsoimplementaRecordReaderonwhomliestheresponsibiltytorespectrecord-boundariesandpresentarecord-orientedviewofthelogical

Hadoop : Why using FileSplit in the RecordReader Implementation

在Hadoop中,考虑一个场景,如果一个大文件已经加载到hdfs文件系统中,使用hdfsdfsput或hdfsdfsCopyFromLocal命令,大文件将被分成block(64MB)。在这种情况下,当必须创建一个customRecordReader来读取大文件时,请解释使用FileSplit的原因,当大文件在文件加载过程中已经被分割并且以分割block的形式可用时。 最佳答案 PlsexplainthereasonforusingFileSplit,whenthebigfileisalreadysplittedduringthef

hadoop - RecordReader 的概念

我们知道在Mapper阶段之前,文件被拆分并且RecordReader开始工作以向Mapper发出输入。我的问题是reducer是否使用RecordReader类来读取映射器发出的数据?因为reducer也接受输入!!请解释!!! 最佳答案 mapreduce步骤概览如下1)InputFormat:-ValidatestheInput.-Splitstheinputfiles.-GivesRecordReaderImplementationtogiveinputtoMapper.2)MapperPhase3)ShuffleandSo

java - 线程 "main"java.lang.NoClassDefFoundError : org/apache/hadoop/mapreduce/RecordReader 中的异常

我正在尝试将我的Json文件转换为Parquet格式。以下是我的pom文件。4.0.0com.mypackageJSONToParquet1.0-SNAPSHOTjarwso2http://dist.wso2.org/maven2/org.kitesdkkite-data-core1.1.0org.kitesdkkite-morphlines-all1.0.0pomua_parserua-parser1.3.0pomUTF-81.81.8转换代码如下:SchemajsonSchema=JsonUtil.inferSchema(inputstream,"Movie",10);try(JS

hadoop - 为什么在 Hadoop 中扩展 RecordReader 时同步 close() 方法

我会看一下给定alexhomes的hadoop-book的例子here我不明白为什么关闭方法是同步的?为什么只有close()而没有其他方法?publicsynchronizedvoidclose()throwsIOException{reader.close();}有人能解释一下吗?这将非常有帮助。 最佳答案 正如我在书中提到的,我使用了ElephantBird项目的LzoJsonRecordReader类作为我的版本的基础,因为我想写一个不需要LZOP压缩的版本。ElephantBird在他们的RecordReader中使用了同