my-mapper

Hadoop MapReduce : Two values as key in Mapper-Reducer

如何使用两个组件构建key？这样做的原因是我有一个无向图。如果A和B通过通信关联(方向无关)，则两个节点A和B之间存在边。此通信有一个数字参数。所以我想实现的是有一个将A和B组合在一起作为一个集合的key，这样A到B和B到A的通信就可以被认为是等价的，并且可以被加起来得到统计数据说:AB5BA10键在语义上应该是“A或B在一起”，这样包含A和B作为键的集合的值应该是5+10=15。wordcount示例将特定单词作为关键字。就我而言，我想将包含两个组件的集合作为关键。在map和reduce阶段，只要满足AtoB或BtoA就求和。谢谢! 最佳答案

hadoop - 运行时异常 : Error in configuring object with null pointer exception while running my UDAF?

我一直在尝试编写一个UDAF来计算加权平均值。我用类似于现有UDAF的方式编写它来计算平均值，但它似乎只适用于我的本地机器。我不确定出了什么问题....有人遇到过类似的问题吗以下是生成的错误:java.lang.RuntimeException:Errorinconfiguringobjectatorg.apache.hadoop.util.ReflectionUtils.setJobConf(ReflectionUtils.java:93)atorg.apache.hadoop.util.ReflectionUtils.setConf(ReflectionUtils.java:64)

configuring exception java hadoop apache hive

Hadoop-> Mapper->我们如何从给定输入路径的每个文件中只读取前 N 行？

我是Hadoop的新手，我的要求是我只需要处理每个输入文件的前10行。以及如何在读取每个文件的10行后退出映射器。如果有人能提供一些示例代码，那将是很大的帮助。提前致谢。最佳答案您可以重写您的映射器的运行方法，一旦您将map循环迭代10次，您就可以从while循环中中断。这将假定您的文件不可拆分，否则您将从每个拆分中获得前10行:@Overridepublicvoidrun(Contextcontext)throwsIOException,InterruptedException{setup(context);introws=0

给定 amp section context 射器 hadoop map process rows

java - Hadoop Mappers 是否仅在本地执行？

我遇到这样一种情况，文件的整个block位于一台机器上，默认复制因子为1。在这种情况下，如果我在我的集群上启动hadoop，我觉得我所有的映射任务将只在一台机器上运行，因为block只存在于那台机器上。这样对吗？本地映射器任务执行是一个约束还是只是一个优先级？如果是，是否可以通过将block复制到本地磁盘来配置映射器任务也在其他机器上运行？第二个问题是，即使mapper任务只在一台机器上运行，通过复制mapper的中间数据在所有其他机器上启动reducer是否正确？最佳答案数据本地执行只是一个优先级，而不是约束条件。如果其他

Mappers Hadoop 射器 section block java mapreduce mapper reducers

java - Mapper 类是在每个作业的基础上初始化的吗？

我正在使用Hadoop，我想使用静态变量来减少必须进行的方法调用次数。以下是我如何使用静力学:publicclassMapperextendsMapper{protectedstaticvolatileStringmyVar;@Overridepublicfinalvoidsetup(Contextcontext){if(myVar==null)myVar=context.getConfiguration().get("myOpt");}}我知道每个map任务都会初始化一个Mapper。我担心的是Mapper类本身被初始化一次，然后在作业之间保持初始化状态。因此，如果我运行job1，m

Mapper java section 跟踪器 hadoop mapreduce

java - Hadoop - 为特定节点的 Mapper 中的每个 map() 函数创建类的单个实例

我在java中有一个类似这样的类用于hadoopMapReducepublicClassMyClass{publicstaticMyClassMapperextendsMapper{staticSomeClasssomeClassObj=newSomeClass();voidmap(ObjectKey,Textvalue,Contextcontext){StringsomeText=someClassObj.getSomeThing();}}}我只需要someClassObj的单个实例可用于map()函数每个节点。如何实现？如果您需要有关此主题的更多详细信息，请随时询问。谢谢!

Hadoop Mapper section noreferrer map java mapreduce

java - Hadoop Map/Reduce Mapper 'map' 方法和日志

我最近被要求研究加速mapreduce项目。我正在尝试查看在实现以下类的“map”方法中生成的log4j日志信息:org.apache.hadoop.mapred.Mapper在这个类中有以下方法:@Overridepublicvoidconfigure(..){..}publicstaticvoiddoCompileAndAdd(..){..}publicvoidmap(..){..}记录信息可用于配置方法和doCompileAndAdd方法(从配置方法调用)；但是，没有显示“map”方法的日志信息。我也试过在map方法中简单地使用System.out.println(..)但没有成

amp Hadoop section code map java log4j mapreduce hdfs

hadoop - 如何在 Mapper 和 Reducer 类中共享变量？

我有一个要求，比如我想在mapper和reducer类之间共享一个变量。场景如下:-假设我的输入记录是类型A、B和C。我正在处理这些记录并相应地为map函数中的output.collect生成键和值。但与此同时，我还在映射器类中声明了3个staticint变量，以保持记录A、B和C类型的计数。现在这些变量将由各种map线程更新。完成所有maptask后，我想将这三个值传递给Reduce函数。如何实现？我尝试覆盖close()方法，但它会在每个映射函数执行后调用，而不是在所有映射函数执行完毕时调用。或者是否有任何其他方式来共享变量。我希望输出每种类型记录的总数以及我正在显示的任何已处理输

何在 Reducer section code messageToBePassed-OR-anyValue hadoop mapreduce

java - 控制 hadoop mapper 输出文件的数量

我有一份hadoop的工作。陈述工作后，我启动了一些映射器。每个映射器将一些文件写入磁盘，如part-m-00000、part-m-00001。据我了解，每个映射器创建一个零件文件。我有大量数据，所以必须有多个映射器，但我可以以某种方式控制此输出文件的数量吗？我的意思是，hadoop将启动，例如10个映射器，但只有三个部分文件？我找到了这篇文章Howdomultiplereducersoutputonlyonepart-fileinHadoop?但是有使用旧版本的hadoop库。我使用的类来自org.apache.hadoop.mapreduce.*而不是来自org.apache.ha

hadoop mapper 射器 section java mapreduce

java - Hadoop java mapper -copyFromLocal 堆大小错误

作为我的Java映射器的一部分，我有一个命令在本地节点上执行一些代码并将本地输出文件复制到hadoopfs。不幸的是，我得到以下输出:ErroroccurredduringinitializationofVMCouldnotreserveenoughspaceforobjectheap我试过将mapred.map.child.java.opts调整为-Xmx512M，但不幸的是没有成功。当我通过ssh进入节点时，我可以毫无问题地运行-copyFromLocal命令。输出文件也很小，大约100kb。如有任何帮助，我们将不胜感激! 最佳答案

java copyFromLocal section 射器 hadoop mapreduce jvm heap-memory

21 22 232425 26 27