草庐IT

mapreducer

全部标签

hadoop - 有向图中的 MapReduce 长度为 3 条路径

我正在尝试解决一个练习,但我仍然没有找到解决方案。设计一个MapReduce算法,将一个表示为弧列表的有向图作为输入,列出所有节点对(x,y),使得存在三个弧(x,a)、(a,b)和(经过)。reducer接收到的值列表的长度永远不应超过图中节点的数量。请提供伪代码。这么久我通过以下方式找到了长度为2的路径:map(k,v):write(k,(v,"out"))write(v,(k,"in"))reduce(k,list(v))://writeallpairsofnodessuchthatonehasanarcexitingandtheotherhasanarcentering但是从这

hadoop - Hadoop MapReduce 中的数据连接

我正在尝试实现BookHadoopInAction中给出的一个用例,但我不会编译代码。我是Java的新手,所以无法理解错误背后的确切原因。有趣的是,另一段使用相同类和方法的代码编译成功。hadoop@hadoopnode1:~/hadoop-0.20.2/playground/src$javac-classpath/home/hadoop/hadoop-0.20.2/hadoop-0.20.2-core.jar:/home/hadoop/hadoop-0.20.2/lib/commons-cli-1.2.jar:/home/hadoop/hadoop-0.20.2/contrib/da

Hadoop MapReduce : Two values as key in Mapper-Reducer

如何使用两个组件构建key?这样做的原因是我有一个无向图。如果A和B通过通信关联(方向无关),则两个节点A和B之间存在边。此通信有一个数字参数。所以我想实现的是有一个将A和B组合在一起作为一个集合的key,这样A到B和B到A的通信就可以被认为是等价的,并且可以被加起来得到统计数据说:AB5BA10键在语义上应该是“A或B在一起”,这样包含A和B作为键的集合的值应该是5+10=15。wordcount示例将特定单词作为关键字。就我而言,我想将包含两个组件的集合作为关键。在map和reduce阶段,只要满足AtoB或BtoA就求和。谢谢! 最佳答案

Hadoop mapreduce 示例文档

我在哪里可以找到下面提到的示例程序的详细文档,我无法在文档中找到它。hduser@canberra:~/work/software/cloudera/hadoop-2.0.0-cdh4.0.0$hadoopjarsrc/hadoop-mapreduce-project/hadoop-mapreduce-examples/target/hadoop-mapreduce-examples-2.0.0-cdh4.0.0.jarAnexampleprogrammustbegivenasthefirstargument.Validprogramnamesare:aggregatewordcoun

hadoop - MapReduce:stdout 和 std err 的日志文件位置

如果我通过Mapper和Reducer中的stdout(Java中的System.out)和stderr(Java中的System.err)输出一些消息,我可以在任务跟踪器节点中的什么地方看到它们?我想目录位置也可以通过一些参数配置? 最佳答案 这可能取决于您使用的是哪个发行版,但使用我们的cdh3设置,我们可以在任务运行的节点上的/usr/lib/hadoop-0.20/logs/userlogs//下找到它们。例如,stderr将位于:/usr/lib/hadoop-0.20/logs/userlogs/job_20120701

hadoop - MapReduce 不适合哪些任务?

我想知道是否有任何任务示例不适合MapReduce。有一些具体的例子会很棒。谢谢! 最佳答案 其中一些可能是主观的,所以我会尽量坚持最认同的:流数据--MapReduce本质上是批处理的。您在MapReduce中编写的内容时不时地运行,但很难获得它,因此它会处理实时传入的数据流。有一些项目正在计划解决这个问题,例如Storm。实时分析--同样,MapReduce是批处理的,专为聚合和大规模性能量身定制,无法快速获得答案。每个作业预计会有1-2分钟的开销,因此使用MapReduce获得不到一分钟的响应时间非常具有挑战性。这与作为软件的

mongodb - 在 Hadoop 中提交 MapReduce 作业时找不到 com.mongodb.hadoop.MongoOutputFormat

我遵循本教程http://www.mongodb.org/display/DOCS/Hadoop+Quick+Start构建mongodb-hadoop。我尝试构建TreasuryYield示例(我的Hadoop版本是0.20.2。),但是当我提交MapReduce作业时出现以下错误:12/10/2414:01:09INFOutil.MongoTool:Createdaconf:'Configuration:core-default.xml,core-site.xml,mongo-defaults.xml,mongo-treasury_yield.xml'on{classcom.mon

hadoop - 是否有一个好的库可以帮助使用 Hadoop Streaming 和 Python 链接 MapReduce 作业?

关闭。这个问题不符合StackOverflowguidelines.它目前不接受答案。我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题,以便用事实和引用来回答。关闭去年。ImprovethisquestionThis问题回答了我的部分问题,但不完全。我如何运行管理它的脚本,它来self的本地文件系统吗?MrJob或Dumbo之类的东西究竟在哪里出现?还有其他选择吗?我正在尝试运行K-Means,其中每次迭代(MapReduce作业)输出将作为HadoopStreaming和Python下一次迭代的输入。我没有太多经验,任何信息都可以帮助我完成这项工作。谢谢!

hadoop - 将文本文件的记录与 mapreduce 中同一文件中的所有其他记录连接起来

本文xrds:article在“权衡示例”小节中,描述了一种将每条记录与输入文件的所有其他记录连接起来的方式(第一种)。我想知道在mapreduce中如果不只在一个映射器中传递整个输入文件怎么可能。 最佳答案 MapReduce有三种主要的连接类型(还有一些其他类型)。ReduceSideJoin-对于两个数据集,您输出“外键”作为映射器的输出键。你使用类似MultipleInputs的东西一次加载两个数据集。在reducer中,来自两个数据集的数据通过外键汇集在一起​​,这允许您在那里执行连接逻辑(可能像笛卡尔积)。这是通用的,几

hadoop - hcatalog 与 mapreduce

我在执行MapReduce程序时遇到以下错误。我已将所有jar放在hadoop/lib目录中,并且还在-libjars中提到了这些jar。这是我正在执行的命令:$HADOOP_HOME/bin/hadoop--config$HADOOP_HOME/confjar/home/shash/distinct.jarHwordCount-libjars$LIB_JARSWordCountHWordCount2java.lang.RuntimeException:java.lang.ClassNotFoundException:org.apache.hcatalog.mapreduce.HCat