mapreduce_shuffle

Hadoop 在重新启动时删除 MapReduce 历史记录

我正在使用TestDFSIO和TeraSort基准测试工具执行多项Hadoop测试。我基本上是用不同数量的数据节点进行测试，以评估处理能力和数据节点可扩展性的线性度。在上面提到的过程中，我显然不得不重启几次所有的Hadoop环境。每次我重新启动Hadoop时，所有MapReduce作业都会被删除，作业计数器会再次从“job_2013*_0001”开始。出于比较原因，保持我之前启动的所有MapReduce作业对我来说非常重要。所以，我的问题是:¿如何避免Hadoop在重新启动后删除所有MapReduce作业历史记录？¿是否有一些属性可以控制在Hadoop环境重新启动后删除作业？谢谢!

hadoop - HBase批量加载MapReduce HFile异常(netty jar)

我正在尝试运行一个简单的MapReduce进程来编写HFile，以便稍后导入到HBase表中。提交作业时:hbasecom.pcoa.Driver/test/bulkpcoa我收到以下异常，表明netty-3.6.6.Final.jar在HDFS中不存在(但它确实存在于此处)。-rw-r--r--+1mbeeningflprod1206119Sep1818:25/dedge1/hadoop/hbase-0.96.1.1-hadoop2/lib/netty-3.6.6.Final.jar恐怕我不明白如何解决这个配置(？)错误。谁能给我一些建议？异常(exception)情况:Except

MapReduce hadoop apache java hbase netty filenotfoundexception hfile

hadoop - 在 Oozie 工作流中的 MapReduce 作业中设置 Reducer 的数量

我有一个五节点集群，其中三个节点包含DataNodes和TaskTrackers。我已经通过Sqoop从Oracle导入了大约1000万行，并在Oozie工作流中通过MapReduce对其进行了处理。MapReduce作业大约需要30分钟，并且只使用了一个reducer。编辑-如果我单独运行MapReduce代码，与Oozie分开，job.setNumReduceTasks(4)正确地建立了4个reducer。我尝试了以下方法手动将reducer的数量设置为四个，但没有成功:在Oozie中，在mapreduce节点的tag中设置如下属性:mapred.reduce.tasks4在Map

中设 MapReduce code Number bytes hadoop reducers

hadoop - 无法在 MapReduce 模式下使用 Java 运行 Embedded Pig

我正在使用Pig0.12.0和Hadoop2.2.0。我已经在本地和mapreduce模式下成功地从gruntshell和pig批处理脚本运行pig。现在我正在尝试从Java中的嵌入式pig运行pig。话虽如此，我也成功地在本地模式下运行了嵌入式pig。但是，我在mapreduce模式下运行embeddedpig时遇到了问题。问题是:成功编译类后，运行时没有任何反应java-cpPigMapRedMode后来我看到有人说我应该在类路径中包含pig.properties。比如fs.default.name=hdfs://:mapred.job.tracker=:但是，在Hadoop2.2

MapReduce Embedded pigServer gt lt hadoop configuration apache-pig

hadoop - 针对 cassandra 使用 hadoop mapreduce 的示例代码

我一直在尝试获取运行Cassandra时附带的MapReduce示例代码，但出现运行时错误。源代码:importjava.io.IOException;importjava.nio.ByteBuffer;importjava.util.*;importjava.util.Map.Entry;importorg.apache.cassandra.hadoop.cql3.CqlConfigHelper;importorg.apache.cassandra.hadoop.cql3.CqlOutputFormat;importorg.slf4j.Logger;importorg.slf4j.L

hadoop cassandra 34 String mapreduce

java - 打包和部署 Hadoop MapReduce 作业的正确方法？

我在本地节点CentOS上运行Hadoop2.2.0.2.0.6.0-101。当我将/usr/lib/hadoop和/usr/lib/hive中的必要jar作为Eclipse项目中的依赖项包含时，我的MapReduce作业在Eclipse中编译。寻找必要的jar是一项真正的任务!grep是我完成这项工作的唯一工具，它可以执行诸如grep-ri-l"FacebookService"/usr/lib/hadoop尽管如此，当我尝试在编译它的同一本地节点上运行我的应用程序时，我遇到了异常。我放弃了寻找必要的jar的尝试——在一个异常被修复后，一个新的异常出现了。现在，在通过从/usr/lib

MapReduce Hadoop code section java deployment jar

java - Hadoop:在 MapReduce [Java] 中实现嵌套 for 循环

我正在尝试实现一个统计公式，该公式需要将一个数据点与所有其他可能的数据点进行比较。例如我的数据集是这样的:10.2215.7716.559.88我需要像这样浏览这个文件:for(i=0;i基本上，当我通过map函数获取每一行时，我需要在reducer中对文件的其余部分执行一些指令，就像在嵌套for循环中一样。现在我尝试使用分布式缓存，某种形式的ChainMapper，但无济于事。任何关于我如何去做这件事的想法都将不胜感激。即使是开箱即用的方式也会有所帮助。最佳答案您需要覆盖Reducer类的run方法实现。publicvoidr

MapReduce Hadoop context section code java

python - 在 hadoop 中执行 python mapreduce 任务时出错？

我已经为python中的wordcount示例编写了mapper和reducer。这些脚本作为独立脚本运行良好。但是在hadoop中运行时出现错误。我正在使用hadoop2.2这是我的命令:hadoopjarshare/hadoop/tools/sources/hadoop-streaming*.jar-mapperwordmapper.py-reducerwordreducer.py-filewordmapper.py-filewordreducer.py-input/data-output/output/result7Exceptioninthread"main"java.lang

时出 python hadoop java section hadoop2

json - 从 Cosmos 中的 JSON 文件中选择列时出现 MapReduce 错误

问题如下:在使用Cygnus0.2.1创建表后，我在尝试从Hive中选择列时收到MapReduce错误。如果我们查看Cygnus在hadoop中创建的文件，我们可以看到使用的格式是JSON。这个问题在以前版本的Cygnus中没有出现，因为它正在创建CSV格式的hadoop文件。为了测试它，我留下了2个从每种格式读取的表格。您可以通过以下查询比较并查看错误:SELECTentitytypeFROMfiware_ports_meteo;(itfails,createdwith0.2.1inJSONformat)SELECTentitytypeFROMfiware_test_table;(i

时出中选 section code pre json csv hadoop hive fiware-cygnus

java - 使用 Java 客户端在 Apache YARN 上运行 MapReduce 应用程序

这个问题在这里已经有了答案:Callingamapreducejobfromasimplejavaprogram(6个答案)关闭8年前。我想使用Java客户端代码在YARN集群上运行MapReduce应用程序。例如，我想使用JavaAPI将驻留在hadoop-examples.jar文件中的WordCount提交到由16台机器组成的YARN集群。我试着关注thistutorial，但我没有得到什么是应用程序主jar。它与hadoop-examples.jar一样吗？或者另一个jar包含ApplicationMaster逻辑？如果您有从a到z的Java客户端代码示例将MapReduce应

MapReduce Apache section hadoop notice java hadoop-yarn hadoop2

135 136 137138139 140 141