草庐IT

mapper-locations

全部标签

hadoop - 在 hadoop 中,跨 mapper reducer 多个输入保存状态的能力是什么意思?

问题的标题解释了我的问题是什么。我一直在阅读多篇文章,遇到这条线的答案Throughuseofthecombinerandbytakingadvantageoftheabilitytopreservestateacrossmultipleinputs,itisoftenpossibletosubstantiallyreduceboththenumberandsizeofkey-valuepairsthatneedtobeshuffledfromthemapperstothereducers.我无法理解这个概念。一个详尽的答案和一个例子的解释会很有帮助。如何培养直觉来理解这些概念?

java - 如何在 hadoop 作业中将 'Text' 作为 Mapper 输入键传递?

我的文件内容是这样的。TestKey,TestValueTestKey1,TestValue1我想将MapperKey作为TestKey传递,将MapperValue作为TestValue传递等等。所以我尝试编写CustomRecordReader来实现这一点。但是它会抛出类似CannotcastLongWritablewithText的错误。我如何将文本作为我的映射器输入键传递?非常感谢对此的任何帮助。谢谢,香卡 最佳答案 看来您需要将输入格式更改为KeyValueTextInputFormat并将分隔符设置为mapreduce.

r - Hadoop streaming reducer 到 mapper

我正在用R编写Hadoop流作业,我遇到了一个相当奇怪的情况,我找不到任何文档。我想运行一个直接传递给另一个映射器的缩减作业(不需要映射器)。是否可以在没有初始映射器的情况下直接在缩减作业之后堆叠映射作业?如果我编写一个身份映射器将输出传递到我的reduce作业,我能否将reduce输出传递给另一个映射器,如果可以,如何传递?我当前的代码是:$HADOOP_HOME/bin/hadoopjar/opt/cloudera/parcels/CDH-5.3.2-1.cdh5.3.2.p0.10/lib/hadoop-0.20-mapreduce/contrib/streaming/hadoo

java - Hadoop Map-Reduce 并行执行 3 个 Mappers 并输出到 1 个 reducer

我有一个要求,我必须根据每个数据集的不同标准过滤3个不同的数据集,最后将它们联合起来并将它们聚合到一个reducer中。我有一个执行作业的Pig脚本,其中数据集的过滤按顺序发生。我想知道是否有可能为每个数据集并行运行Mappers,并将输出发送到1个reducer类。 最佳答案 尝试使用MultipleInputs和3个映射器来处理3个数据集。请参阅此链接以获取MultipleInputs的API-https://hadoop.apache.org/docs/stable/api/org/apache/hadoop/mapreduc

hadoop - 在 MapReduce 的一个 Mapper 中读取下一行

我有一个文本输入文件,它由换行符分隔。在每个映射器中,我需要读取我的键/值的下一行。例如,在这个数据中:L1L2L3我需要这样的东西:L1L2在下一个映射器中:L2L3提前致谢。 最佳答案 除了CustomInputFormat之外,您还可以像Map一样在集合中存储行前,并在每次下次调用时访问它例子: 关于hadoop-在MapReduce的一个Mapper中读取下一行,我们在StackOverflow上找到一个类似的问题: https://stackover

java - Hadoop 上的 MapReduce - 将数据从 Mapper 发送到 Reducer

我正在尝试针对特定问题实现MapReduce算法。假设在我的Mapper中我需要处理一个大型文本对象。以下示例总结了我的问题。我有文本对象:Todayisalovelyday我需要对这些词做一些处理。所以我有两个选择:我可以将以下形式的键值对发送到Reducer:我可以发送键值对到reducer然后处理它,例如标记化字符串对象。这种情况的最佳方法是什么?在第一种情况下,我必须向reducer发送更多数据,但我没有像第二种情况那样要标记化的字符串对象。但是在第二种情况下,Mapper发送的数据量较小。 最佳答案 我认为您不会通过这种方

oracle - 如果我们在sqoop中使用6个mapper从oracle中导入数据,那么sqoop和source之间会建立多少个connection

如果我们在sqoop中使用6个mapper从Oracle导入数据,那么sqoop和source之间会建立多少个connection。是单个连接还是每个映射器有6个连接。 最佳答案 根据sqoopdocs:Likewise,donotincreasethedegreeofparallismhigherthanthatwhichyourdatabasecanreasonablysupport.Connecting100concurrentclientstoyourdatabasemayincreasetheloadonthedataba

hadoop - 如何将一些数据发送到 Mapper 类(在 HBase 数据库中的数据上运行)

我需要为在HBase中的节点上运行的映射器作业发送一些信息。我已经在类中将数据定义为静态成员,但似乎当映射器在其他节点上运行时,数据并未传输到节点。有什么办法吗?publicclassGetResultFromVerticesIDMapperextendsTableMapper{publicstaticHashMapvertexIDsHashMap;publicstaticintnResultComponents;...} 最佳答案 上面你提到的方式是一种方式..换句话说,如果您发送系统属性,那么它将自动设置为上下文。在运行程序时,

java - Hadoop 中的 Mapper 输出保存在哪里?

我对高效管理Hadoop洗牌流量和有效利用网络带宽很感兴趣。为此,我想知道每个数据节点产生了多少洗牌流量?洗牌流量只不过是映射器的输出。那么这个映射器输出保存在哪里?如何实时从每个数据节点获取映射器输出的大小?感谢您的帮助。我已经创建了一个目录来存储这个映射器的输出,如下所示。mapred.local.dir/app/hadoop/tmp/myoutput我看着hduser@dn4:/app/hadoop/tmp/myoutput$ls-lrttotal16drwxr-xr-x2hduserhadoop4096Dec1210:50tt_log_tmpdrwx------3hduserh

hadoop - 什么时候需要 "no mapper"?

在某些用例中,我已经有一段时间没有使用reducer作业,但我从未遇到过“无映射器”作业。“NoMapper”意味着mapreduce框架仍然会读取输入文件并以某种方式(基于InputFormat?)对它们进行洗牌/排序,这些将成为我的reducer的输入? 最佳答案 “无映射器”是“身份映射器”的委婉说法。如果您不指定一个默认映射器就是这样。至少,身份映射器进程将未更改的输入定向到正确的化简器分区。 关于hadoop-什么时候需要"nomapper"?,我们在StackOverflow