草庐IT

Mapreduce1

全部标签

hadoop - HBase批量加载MapReduce HFile异常(netty jar)

我正在尝试运行一个简单的MapReduce进程来编写HFile,以便稍后导入到HBase表中。提交作业时:hbasecom.pcoa.Driver/test/bulkpcoa我收到以下异常,表明netty-3.6.6.Final.jar在HDFS中不存在(但它确实存在于此处)。-rw-r--r--+1mbeeningflprod1206119Sep1818:25/dedge1/hadoop/hbase-0.96.1.1-hadoop2/lib/netty-3.6.6.Final.jar恐怕我不明白如何解决这个配置(?)错误。谁能给我一些建议?异常(exception)情况:Except

hadoop - 在 Oozie 工作流中的 MapReduce 作业中设置 Reducer 的数量

我有一个五节点集群,其中三个节点包含DataNodes和TaskTrackers。我已经通过Sqoop从Oracle导入了大约1000万行,并在Oozie工作流中通过MapReduce对其进行了处理。MapReduce作业大约需要30分钟,并且只使用了一个reducer。编辑-如果我单独运行MapReduce代码,与Oozie分开,job.setNumReduceTasks(4)正确地建立了4个reducer。我尝试了以下方法手动将reducer的数量设置为四个,但没有成功:在Oozie中,在mapreduce节点的tag中设置如下属性:mapred.reduce.tasks4在Map

hadoop - 无法在 MapReduce 模式下使用 Java 运行 Embedded Pig

我正在使用Pig0.12.0和Hadoop2.2.0。我已经在本地和mapreduce模式下成功地从gruntshell和pig批处理脚本运行pig。现在我正在尝试从Java中的嵌入式pig运行pig。话虽如此,我也成功地在本地模式下运行了嵌入式pig。但是,我在mapreduce模式下运行embeddedpig时遇到了问题。问题是:成功编译类后,运行时没有任何反应java-cpPigMapRedMode后来我看到有人说我应该在类路径中包含pig.properties。比如fs.default.name=hdfs://:mapred.job.tracker=:但是,在Hadoop2.2

hadoop - 针对 cassandra 使用 hadoop mapreduce 的示例代码

我一直在尝试获取运行Cassandra时附带的MapReduce示例代码,但出现运行时错误。源代码:importjava.io.IOException;importjava.nio.ByteBuffer;importjava.util.*;importjava.util.Map.Entry;importorg.apache.cassandra.hadoop.cql3.CqlConfigHelper;importorg.apache.cassandra.hadoop.cql3.CqlOutputFormat;importorg.slf4j.Logger;importorg.slf4j.L

java - 打包和部署 Hadoop MapReduce 作业的正确方法?

我在本地节点CentOS上运行Hadoop2.2.0.2.0.6.0-101。当我将/usr/lib/hadoop和/usr/lib/hive中的必要jar作为Eclipse项目中的依赖项包含时,我的MapReduce作业在Eclipse中编译。寻找必要的jar是一项真正的任务!grep是我完成这项工作的唯一工具,它可以执行诸如grep-ri-l"FacebookService"/usr/lib/hadoop尽管如此,当我尝试在编译它的同一本地节点上运行我的应用程序时,我遇到了异常。我放弃了寻找必要的jar的尝试——在一个异常被修复后,一个新的异常出现了。现在,在通过从/usr/lib

java - Hadoop:在 MapReduce [Java] 中实现嵌套 for 循环

我正在尝试实现一个统计公式,该公式需要将一个数据点与所有其他可能的数据点进行比较。例如我的数据集是这样的:10.2215.7716.559.88我需要像这样浏览这个文件:for(i=0;i基本上,当我通过map函数获取每一行时,我需要在reducer中对文件的其余部分执行一些指令,就像在嵌套for循环中一样。现在我尝试使用分布式缓存,某种形式的ChainMapper,但无济于事。任何关于我如何去做这件事的想法都将不胜感激。即使是开箱即用的方式也会有所帮助。 最佳答案 您需要覆盖Reducer类的run方法实现。publicvoidr

python - 在 hadoop 中执行 python mapreduce 任务时出错?

我已经为python中的wordcount示例编写了mapper和reducer。这些脚本作为独立脚本运行良好。但是在hadoop中运行时出现错误。我正在使用hadoop2.2这是我的命令:hadoopjarshare/hadoop/tools/sources/hadoop-streaming*.jar-mapperwordmapper.py-reducerwordreducer.py-filewordmapper.py-filewordreducer.py-input/data-output/output/result7Exceptioninthread"main"java.lang

json - 从 Cosmos 中的 JSON 文件中选择列时出现 MapReduce 错误

问题如下:在使用Cygnus0.2.1创建表后,我在尝试从Hive中选择列时收到MapReduce错误。如果我们查看Cygnus在hadoop中创建的文件,我们可以看到使用的格式是JSON。这个问题在以前版本的Cygnus中没有出现,因为它正在创建CSV格式的hadoop文件。为了测试它,我留下了2个从每种格式读取的表格。您可以通过以下查询比较并查看错误:SELECTentitytypeFROMfiware_ports_meteo;(itfails,createdwith0.2.1inJSONformat)SELECTentitytypeFROMfiware_test_table;(i

java - 使用 Java 客户端在 Apache YARN 上运行 MapReduce 应用程序

这个问题在这里已经有了答案:Callingamapreducejobfromasimplejavaprogram(6个答案)关闭8年前。我想使用Java客户端代码在YARN集群上运行MapReduce应用程序。例如,我想使用JavaAPI将驻留在hadoop-examples.jar文件中的WordCount提交到由16台机器组成的YARN集群。我试着关注thistutorial,但我没有得到什么是应用程序主jar。它与hadoop-examples.jar一样吗?或者另一个jar包含ApplicationMaster逻辑?如果您有从a到z的Java客户端代码示例将MapReduce应

design-patterns - 设计 MapReduce 作业以找到低于给定阈值的最大值

查询:我正在尝试设计一个查询以查找给定日期网页的实时版本。date作为运行时参数传递。映射器的输入是以下键->值对:webpage_id->revision_id和revision_timestamp。对于每个webpage_id,作业必须输出在给定日期。当前设计:映射器将在阈值日期之后丢弃任何带有revision_timestamp的记录,并输出所有其他记录。然后,组合器会对给定网页的所有修订进行排序,并仅输出最新的(这是通过使用内部数据结构并在组合器的清理阶段发出键值对来完成的)。reducer会做与combiner相同的事情,但在combiner的输出上。想法:我想进一步优化作业