草庐IT

mapreduce_shuffle

全部标签

Hadoop 在重新启动时删除 MapReduce 历史记录

我正在使用TestDFSIO和TeraSort基准测试工具执行多项Hadoop测试。我基本上是用不同数量的数据节点进行测试,以评估处理能力和数据节点可扩展性的线性度。在上面提到的过程中,我显然不得不重启几次所有的Hadoop环境。每次我重新启动Hadoop时,所有MapReduce作业都会被删除,作业计数器会再次从“job_2013*_0001”开始。出于比较原因,保持我之前启动的所有MapReduce作业对我来说非常重要。所以,我的问题是:¿如何避免Hadoop在重新启动后删除所有MapReduce作业历史记录?¿是否有一些属性可以控制在Hadoop环境重新启动后删除作业?谢谢!

hadoop - HBase批量加载MapReduce HFile异常(netty jar)

我正在尝试运行一个简单的MapReduce进程来编写HFile,以便稍后导入到HBase表中。提交作业时:hbasecom.pcoa.Driver/test/bulkpcoa我收到以下异常,表明netty-3.6.6.Final.jar在HDFS中不存在(但它确实存在于此处)。-rw-r--r--+1mbeeningflprod1206119Sep1818:25/dedge1/hadoop/hbase-0.96.1.1-hadoop2/lib/netty-3.6.6.Final.jar恐怕我不明白如何解决这个配置(?)错误。谁能给我一些建议?异常(exception)情况:Except

hadoop - 在 Oozie 工作流中的 MapReduce 作业中设置 Reducer 的数量

我有一个五节点集群,其中三个节点包含DataNodes和TaskTrackers。我已经通过Sqoop从Oracle导入了大约1000万行,并在Oozie工作流中通过MapReduce对其进行了处理。MapReduce作业大约需要30分钟,并且只使用了一个reducer。编辑-如果我单独运行MapReduce代码,与Oozie分开,job.setNumReduceTasks(4)正确地建立了4个reducer。我尝试了以下方法手动将reducer的数量设置为四个,但没有成功:在Oozie中,在mapreduce节点的tag中设置如下属性:mapred.reduce.tasks4在Map

hadoop - 无法在 MapReduce 模式下使用 Java 运行 Embedded Pig

我正在使用Pig0.12.0和Hadoop2.2.0。我已经在本地和mapreduce模式下成功地从gruntshell和pig批处理脚本运行pig。现在我正在尝试从Java中的嵌入式pig运行pig。话虽如此,我也成功地在本地模式下运行了嵌入式pig。但是,我在mapreduce模式下运行embeddedpig时遇到了问题。问题是:成功编译类后,运行时没有任何反应java-cpPigMapRedMode后来我看到有人说我应该在类路径中包含pig.properties。比如fs.default.name=hdfs://:mapred.job.tracker=:但是,在Hadoop2.2

hadoop - 针对 cassandra 使用 hadoop mapreduce 的示例代码

我一直在尝试获取运行Cassandra时附带的MapReduce示例代码,但出现运行时错误。源代码:importjava.io.IOException;importjava.nio.ByteBuffer;importjava.util.*;importjava.util.Map.Entry;importorg.apache.cassandra.hadoop.cql3.CqlConfigHelper;importorg.apache.cassandra.hadoop.cql3.CqlOutputFormat;importorg.slf4j.Logger;importorg.slf4j.L

java - 打包和部署 Hadoop MapReduce 作业的正确方法?

我在本地节点CentOS上运行Hadoop2.2.0.2.0.6.0-101。当我将/usr/lib/hadoop和/usr/lib/hive中的必要jar作为Eclipse项目中的依赖项包含时,我的MapReduce作业在Eclipse中编译。寻找必要的jar是一项真正的任务!grep是我完成这项工作的唯一工具,它可以执行诸如grep-ri-l"FacebookService"/usr/lib/hadoop尽管如此,当我尝试在编译它的同一本地节点上运行我的应用程序时,我遇到了异常。我放弃了寻找必要的jar的尝试——在一个异常被修复后,一个新的异常出现了。现在,在通过从/usr/lib

java - Hadoop:在 MapReduce [Java] 中实现嵌套 for 循环

我正在尝试实现一个统计公式,该公式需要将一个数据点与所有其他可能的数据点进行比较。例如我的数据集是这样的:10.2215.7716.559.88我需要像这样浏览这个文件:for(i=0;i基本上,当我通过map函数获取每一行时,我需要在reducer中对文件的其余部分执行一些指令,就像在嵌套for循环中一样。现在我尝试使用分布式缓存,某种形式的ChainMapper,但无济于事。任何关于我如何去做这件事的想法都将不胜感激。即使是开箱即用的方式也会有所帮助。 最佳答案 您需要覆盖Reducer类的run方法实现。publicvoidr

python - 在 hadoop 中执行 python mapreduce 任务时出错?

我已经为python中的wordcount示例编写了mapper和reducer。这些脚本作为独立脚本运行良好。但是在hadoop中运行时出现错误。我正在使用hadoop2.2这是我的命令:hadoopjarshare/hadoop/tools/sources/hadoop-streaming*.jar-mapperwordmapper.py-reducerwordreducer.py-filewordmapper.py-filewordreducer.py-input/data-output/output/result7Exceptioninthread"main"java.lang

json - 从 Cosmos 中的 JSON 文件中选择列时出现 MapReduce 错误

问题如下:在使用Cygnus0.2.1创建表后,我在尝试从Hive中选择列时收到MapReduce错误。如果我们查看Cygnus在hadoop中创建的文件,我们可以看到使用的格式是JSON。这个问题在以前版本的Cygnus中没有出现,因为它正在创建CSV格式的hadoop文件。为了测试它,我留下了2个从每种格式读取的表格。您可以通过以下查询比较并查看错误:SELECTentitytypeFROMfiware_ports_meteo;(itfails,createdwith0.2.1inJSONformat)SELECTentitytypeFROMfiware_test_table;(i

java - 使用 Java 客户端在 Apache YARN 上运行 MapReduce 应用程序

这个问题在这里已经有了答案:Callingamapreducejobfromasimplejavaprogram(6个答案)关闭8年前。我想使用Java客户端代码在YARN集群上运行MapReduce应用程序。例如,我想使用JavaAPI将驻留在hadoop-examples.jar文件中的WordCount提交到由16台机器组成的YARN集群。我试着关注thistutorial,但我没有得到什么是应用程序主jar。它与hadoop-examples.jar一样吗?或者另一个jar包含ApplicationMaster逻辑?如果您有从a到z的Java客户端代码示例将MapReduce应