草庐IT

mapper-locations

全部标签

hadoop - Oozie 作业在运行 hue 时由于 "not org.apache.hadoop.mapred.Mapper"而失败

我正在尝试通过oozie作业运行wordcount程序。当我像hadoopjarwordcoutjar/data.txt/out一样手动运行wordcoutjar时。它运行良好并给我输出。这是我的wordcount程序的映射器代码的详细信息。publicclassMapperWordcountextendsMapper{privatefinalstaticIntWritableone=newIntWritable(1);privateTextword=newText();publicvoidmap(LongWritablekey,Textvalue,Contextcontext)thr

java - 如何将附加数据传递给 Mapper?

由于一些数据在所有map()函数之间共享,我无法在setup()中生成它们,因为每个setup()对应于每个map()函数,而我想做的是预先生成一些数据并将其存储在可实现的地方,然后在每个map()中使用它。我该怎么做?假设我正在使用Mapreduce执行KNN,并且我想使用每个map()的所有测试数据。我应该在哪里存储这些测试数据,然后在映射器中使用它们?非常感谢。 最佳答案 您可以将预先计算的数据存储到HDFS中,然后将其包含在作业的DitributedCache中。https://hadoop.apache.org/docs/

Hadoop 基础 :Number of map tasks mappers reduce tasks reducers

映射器和映射任务有什么区别?同样,reducer和reduce任务?此外,在执行mapreduce任务期间如何确定映射器、maptasks、reducer、reducetasks的数量?如果有的话,给出它们之间的相互关系。 最佳答案 简单来说maptask就是Mapper的一个实例。Mapper和reducer是mapreduce作业中的方法。当我们运行mapreduce作业时,生成的map任务数取决于输入中的block数(block数取决于输入拆分)。然而,reduce任务的数量可以在mapreduce驱动程序代码中指定。可以通过

java - hadoop mapreduce Mapper 从文本文件中读取不正确的值

我正在编写一个mapreduce程序来处理一个文本文件,将一个字符串附加到每一行。我面临的问题是映射器的map方法中的文本值不正确。每当文件中的一行小于前一行时,会自动将几个字符附加到该行以使该行的长度等于上一行的长度。映射方法参数如下*@Overrideprotectedvoidmap(LongWritablekey,Textvalue,Contextcontext)throwsIOException,InterruptedException{*我正在记录map方法中的值并观察此行为。有什么指点吗?代码片段DriverConfigurationconfiguration=newCon

windows - Hadoop 二进制文件中的 java.io.IOException : Could not locate executable null\bin\winutils. exe

$bin/start-hbase.sh2015-07-0119:21:34,971ERROR[main]util.Shell:Failedtolocatethewinutilsbinaryinthehadoopbinarypathjava.io.IOException:Couldnotlocateexecutablenull\bin\winutils.exeintheHadoopbinaries.atorg.apache.hadoop.util.Shell.getQualifiedBinPath(Shell.java:355)atorg.apache.hadoop.util.Shell

python - MapReduce 如何允许 Mapper 读取 xml 文件进行查找

在我的MapReduce作业中,我将产品名称作为字符串参数传递给Mapper。Mapper.py脚本导入一个名为Process.py的辅助脚本,该脚本对产品名称执行某些操作并将一些发射字符串返回给Mapper。映射器然后将这些字符串发送到Hadoop框架,以便Reducer可以拾取它们。除以下内容外,一切正常:Process.py脚本包含查找值的字典,我想将其从脚本内部移动到xml文件以便于更新。我已经在本地对此进行了测试,如果我在Process.py脚本中包含xml文件的Windows路径,它就可以正常工作。但是,出于某种原因,在HadoopMapReduce环境中对此进行测试不起作

hadoop - hadoop中搜索的mapper程序详解

我是hadoop的新手,所以我对程序的理解有点困难。那么,是否有人可以帮助我理解这个映射器程序?packageSearchTxn;importjava.io.IOException;importorg.apache.hadoop.io.LongWritable;importorg.apache.hadoop.io.NullWritable;importorg.apache.hadoop.io.Text;importorg.apache.hadoop.mapreduce.Mapper;publicclassMyMapextendsMapper{publicvoidmap(LongWrit

java - Cloudera 中的 WordCount 作业成功但 reducer 的输出与 mapper 的输出相同

这个程序是用Cloudera编写的。这是我创建的驱动程序类。importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.io.IntWritable;importorg.apache.hadoop.io.Text;importorg.apache.hadoop.mapreduce.Job;importorg.apache.hadoop.mapreduce.lib.input.FileInputFormat;importorg.apache.hadoo

Hadoop MapReduce : Two values as key in Mapper-Reducer

如何使用两个组件构建key?这样做的原因是我有一个无向图。如果A和B通过通信关联(方向无关),则两个节点A和B之间存在边。此通信有一个数字参数。所以我想实现的是有一个将A和B组合在一起作为一个集合的key,这样A到B和B到A的通信就可以被认为是等价的,并且可以被加起来得到统计数据说:AB5BA10键在语义上应该是“A或B在一起”,这样包含A和B作为键的集合的值应该是5+10=15。wordcount示例将特定单词作为关键字。就我而言,我想将包含两个组件的集合作为关键。在map和reduce阶段,只要满足AtoB或BtoA就求和。谢谢! 最佳答案

Hadoop-> Mapper->我们如何从给定输入路径的每个文件中只读取前 N 行?

我是Hadoop的新手,我的要求是我只需要处理每个输入文件的前10行。以及如何在读取每个文件的10行后退出映射器。如果有人能提供一些示例代码,那将是很大的帮助。提前致谢。 最佳答案 您可以重写您的映射器的运行方法,一旦您将map循环迭代10次,您就可以从while循环中中断。这将假定您的文件不可拆分,否则您将从每个拆分中获得前10行:@Overridepublicvoidrun(Contextcontext)throwsIOException,InterruptedException{setup(context);introws=0