elastic-mapreduce

api - 最容易学习的 API/创建用于在 hadoop 上运行 mapreduce 的 Web 应用程序的方法？

我在我的ubuntu11.04上运行hadoop1.0.4，配置了eclipse我想制作一个web应用程序来运行hadoop作业，或者可能是Cassandra，Hbase和Hive可能是一种方式，但我没有太多时间彻底学习所有这些，我想尽快做到这一点。有什么建议可能被证明是最容易上手的吗？最佳答案我不知道这个问题是否真的有资格以目前的形式出现在SO上。这就是我最初没有写这篇文章的原因。但是，很多SO专家都在那里决定这个(他们可以比我做得更好):)说到这里，我想根据我的亲身经历，跟大家分享几点，让大家朝着正确的道路前行。首先，Had

hadoop - 自动链接 mapreduce 库

我正在开发一个在亚马逊网络服务上运行的mapreduce程序(它实际上是一个相当复杂的字数统计算法)。我生成了一个在AWS节点上运行的.jar。我现在正在做的是将所有mapreduce库jar合并到我的.jar文件中。一切正常，但我认为这不是一个很好的做法(他们对机器镜像进行了一些更新，我收到了可能与此相关的奇怪异常)。有人可以向我解释如何自动链接安装在亚马逊上的hadoop版本，这样我就可以在不将外部库添加到我的jar的情况下做到这一点吗？非常感谢您的帮助! 最佳答案所以您正在使用Amazon的ElasticMapReduce!

mapreduce hadoop section jar amazon-web-services

java - 执行 mapreduce 程序时出现 ClassNotFoundException

我试图在eclipse中执行字数统计程序。但是在执行程序时出现以下错误log4j:ERRORCouldnotinstantiateclass[org.apache.hadoop.log.metrics.EventCounter].java.lang.ClassNotFoundException:org.apache.hadoop.log.metrics.EventCounteratjava.net.URLClassLoader$1.run(URLClassLoader.java:366)atjava.net.URLClassLoader$1.run(URLClassLoader.jav

时出 ClassNotFoundException java apache hadoop eclipse mapreduce log4j

java - 无法使用 mapreduce.LoadIncrementalHFiles 将 HFiles 加载到 HBase

我想使用HBase批量加载APILoadIncrementalHFiles.doBulkLoad(newPath(),hTable)将我的map-reduce作业的输出插入到HBase表中。我从我的映射器发出KeyValue数据类型，然后使用HFileOutputFormat使用其默认缩减器准备我的HFile。当我运行我的map-reduce作业时，它没有任何错误地完成并创建了输出文件，但是，最后一步-将HFiles插入HBase并没有发生。我的map-reduce完成后出现以下错误:13/09/0803:39:51WARNmapreduce.LoadIncrementalHFiles

LoadIncrementalHFiles mapreduce section job java hadoop hbase apache-phoenix

hadoop - 灵活的堆空间分配给 Hadoop MapReduce Mapper 任务

我无法找到配置运行MapReduce1的Hadoop集群(CDH4)的最佳方法。我处于这样一种情况，我需要运行两个需要大量Java堆空间的映射器，以至于我不可能在每个节点上运行超过1个映射器——但同时我希望能够运行作业这可以受益于每个节点的许多映射器。我正在通过Cloudera管理UI配置集群，MaxMapTasks和mapred.map.child.java.opts似乎是相当静态的设置。我想要的是一个类似堆空间池的东西，有XGB可用，它可以容纳这两种作业，而不必每次都重新配置MapReduce服务。如果我运行1个映射器，它应该分配XGB堆-如果我运行8个映射器，它应该分配X/8GB

配给 MapReduce 射器 code section hadoop cloudera

hadoop - pagerank如何在mapreduce模型中迭代？

我对pagerank算法如何与mapreduce模型一起工作感到困惑。主要的困惑是，在phaseII之后，val是inlinks到关键URL(而不是outlinks)，那么它如何在下一次迭代中工作？请参阅下面的示例:txt:A->BA->CB->AC->BWORKER1WORKER2LOADA->BB->AA->CC->BMAP(A,B)(B,A)(A,C)(C,B)SHUFFLEANDDISTRIBUTE(A,[B,C])(B,[A])(C,[B])REDUCE(A,(PR(A),[B,C],2))(B,(PR(B),[A],1))(C,(PR(C),[B],1))MAP(PHASE

何在 mapreduce section PR hadoop pagerank

java - apache avro 中的 mapred 和 mapreduce 包有什么区别？

我正在从事我的项目以整合apacheavro进入我的MapR程序。然而，我很困惑与mapred相比，通过使用新的mapreduce包。latter详细说明如何使用在不同的情况下，新的信息较少。但是我知道的是，它们分别对应hadoop的新旧接口(interface)。有没有人有使用mapreduce接口(interface)的经验或例子对于输入为非Avro数据的作业(例如TextInputFormat)文件输出为avro文件。最佳答案这两个包代表相应的Hadoopmapred和mapreduceAPI的输入/输出格式、

mapreduce apache section strong noreferrer java hadoop avro

java - 如何在 Hadoop MapReduce 中对结果进行排序并剔除顶部条目？

我们正在从一个看起来像这样的文件中读入。100363002100341895100355361100355643我们需要做两件事:1-按右列排序2-去掉前3个结果所以它看起来像这样:100341895100355643100363002我该怎么做？最佳答案 1)为了获得前3个结果，最好在Mapper中将所有值写在一个键下:context.write(NullWritable.get(),value);在Reducer中，您只能获取前三个结果并跳过其他结果。2)现在你所要做的，它的排序值，请搜索“Hadoopsecondarysor

剔除条目 section hadoop-how-to-do-secondary-sort-o secondary java hadoop mapreduce hdfs

Hadoop MapReduce - 程序在文件系统上工作，但在 HDFS 上不工作

这里是Hadoop新手。所以我只是配置了一个单节点设置，我不确定文件应该放在哪里？!我的理解是应该在HDFS上。因此，我使用“将文件上传到DFS”向我的HDFS添加了一个文本文件“zulu.txt”(右键单击DFS；见下图)当我使用Stringinput="/user/irobot-pc/irobot/In/";我收到以下错误代码:输入路径不存在Exceptioninthread"main"org.apache.hadoop.mapreduce.lib.input.InvalidInputException:Inputpathdoesnotexist:file:/user/irobot

上工 MapReduce section hadoop strong

hadoop - SQL 到 MapReduce - 怎么做？

关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题？更新问题，以便editingthispost可以用事实和引用来回答它.关闭8年前。Improvethisquestion我在ETL过程中使用了一个复杂的查询(基于SQL)。它太大了，放不下，但通常几个表和一些使用窗口函数和其他“好东西”的BL之间的内部连接很少。我需要将它移植到HadoopMapReduce。只需将FROM案例中的所有表转储为CSV格式并将文件j带到HDFS。然后编写复制SQL中实现的逻辑的MapReduce作业。我想知道:在将SQL移植到MapReduce时，是否有任何我应该注意的最佳实践

MapReduce hadoop section class notice hdfs etl