mapreducer

hadoop - pagerank如何在mapreduce模型中迭代？

我对pagerank算法如何与mapreduce模型一起工作感到困惑。主要的困惑是，在phaseII之后，val是inlinks到关键URL(而不是outlinks)，那么它如何在下一次迭代中工作？请参阅下面的示例:txt:A->BA->CB->AC->BWORKER1WORKER2LOADA->BB->AA->CC->BMAP(A,B)(B,A)(A,C)(C,B)SHUFFLEANDDISTRIBUTE(A,[B,C])(B,[A])(C,[B])REDUCE(A,(PR(A),[B,C],2))(B,(PR(B),[A],1))(C,(PR(C),[B],1))MAP(PHASE

何在 mapreduce section PR hadoop pagerank

java - apache avro 中的 mapred 和 mapreduce 包有什么区别？

我正在从事我的项目以整合apacheavro进入我的MapR程序。然而，我很困惑与mapred相比，通过使用新的mapreduce包。latter详细说明如何使用在不同的情况下，新的信息较少。但是我知道的是，它们分别对应hadoop的新旧接口(interface)。有没有人有使用mapreduce接口(interface)的经验或例子对于输入为非Avro数据的作业(例如TextInputFormat)文件输出为avro文件。最佳答案这两个包代表相应的Hadoopmapred和mapreduceAPI的输入/输出格式、

mapreduce apache section strong noreferrer java hadoop avro

java - 如何在 Hadoop MapReduce 中对结果进行排序并剔除顶部条目？

我们正在从一个看起来像这样的文件中读入。100363002100341895100355361100355643我们需要做两件事:1-按右列排序2-去掉前3个结果所以它看起来像这样:100341895100355643100363002我该怎么做？最佳答案 1)为了获得前3个结果，最好在Mapper中将所有值写在一个键下:context.write(NullWritable.get(),value);在Reducer中，您只能获取前三个结果并跳过其他结果。2)现在你所要做的，它的排序值，请搜索“Hadoopsecondarysor

剔除条目 section hadoop-how-to-do-secondary-sort-o secondary java hadoop mapreduce hdfs

Hadoop MapReduce - 程序在文件系统上工作，但在 HDFS 上不工作

这里是Hadoop新手。所以我只是配置了一个单节点设置，我不确定文件应该放在哪里？!我的理解是应该在HDFS上。因此，我使用“将文件上传到DFS”向我的HDFS添加了一个文本文件“zulu.txt”(右键单击DFS；见下图)当我使用Stringinput="/user/irobot-pc/irobot/In/";我收到以下错误代码:输入路径不存在Exceptioninthread"main"org.apache.hadoop.mapreduce.lib.input.InvalidInputException:Inputpathdoesnotexist:file:/user/irobot

上工 MapReduce section hadoop strong

hadoop - SQL 到 MapReduce - 怎么做？

关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题？更新问题，以便editingthispost可以用事实和引用来回答它.关闭8年前。Improvethisquestion我在ETL过程中使用了一个复杂的查询(基于SQL)。它太大了，放不下，但通常几个表和一些使用窗口函数和其他“好东西”的BL之间的内部连接很少。我需要将它移植到HadoopMapReduce。只需将FROM案例中的所有表转储为CSV格式并将文件j带到HDFS。然后编写复制SQL中实现的逻辑的MapReduce作业。我想知道:在将SQL移植到MapReduce时，是否有任何我应该注意的最佳实践

MapReduce hadoop section class notice hdfs etl

java - 合并大量小文件以进行 mapreduce 输入

我是Hadoop和MapReduce的新手。我们正在开发一个网络监控工具(在java中)。我们定期收集被监控设备的各种信息，比如每5秒一次。并通过java客户端将该信息作为新文件写入HDFS(因为我们没有使用hdfs附加工具)。在HDFS中，我们的数据组织将是这样的:/monitored_info/f1.txt/f2.txt......./f1020010.txt因此每个文件的大小通常小于2KB。我知道每个maptask最多可以占用1个文件，它会产生与maptask一样多的文件，并且工作效率低下。为了摆脱这种情况，我们在提交作业之前使用了FileUtil的合并功能:FileUtil.c

mapreduce java section noreferrer noopener hadoop

java - MapReduce 与 Hive 的结合

我们能否使用Hive和MapReduce的组合说:我有一个csv文件。我需要找到一列的mean并将空数据替换为平均值(replacenullwithmean)。所以我们是否可以在驱动程序中编写一个hive查询(以找到均值)，然后编写一个mapreduceblock以用均值替换null。哪种方式更好只编写mapreduce代码或结合使用Hive和MapReduce。最佳答案这是可以使用(仅配置单元)解决的另一个答案假设您的csv输入是这样的:firstname,secondname,score,group维杰，库马尔，123，cs

MapReduce java code section 库马 hadoop hive

Hadoop 组合器 : Using same reducer code as combiner in a word count mapreduce program?

这个问题特别来自认证机构的实践测试，对我来说没有意义。谁能帮忙？问题:映射器发出键和值对的字数问题，其中每个词作为键，文字1作为值发出。然后，reducer为它接收到的每个文字“1”递增一个计数器。qn是“我们可以使用现有的reducer代码作为组合器吗”？正确答案描述为。"is"，我们可以，因为求和任务是可交换和结合的。但我的理解是，答案应该是“否”，因为这两种情况会导致两个不同的答案。而且我相信只有在我们采用另一种方法将计数器增加它接收到的值而不是“为它接收到的每个文字1增加一个计数器”时，才能使用相同的reducer和combiner代码。举个例子让我们先考虑一个没有组合器的假设

mapreduce combiner reducer section to hadoop word-count combiners

java - 使用 MapReduce 拆分字符串并重建它

您好，我是Hadoop和MapReduce编程的新手。我正在处理一堆我们必须了解访问行为的apache日志。我们现在正在查看实际URI和引荐来源网址URI。这些引荐来源网址URI来自一个查询字符串，我试图通过MapReduce的映射器解析该查询字符串，并且由于我没有任何缩减器功能，所以我没有构建真正的缩减器。#ipdatetimemethoduristatuscoderefUriuserAgent79.28.43.25--[25/Jan/2009:13:18:02+0000]"GET/blog/2007/01/internet-explorer-7-in-italiano/HTTP/1

并重 MapReduce 34 section amp java hadoop query-string

java - MapReduce 中的全局变量或属性？

我希望能够在我的MR作业的映射阶段设置某种变量或标志，我可以在作业完成后检查。我认为用一些代码来展示我想要的东西的最好方法是:p.s我正在使用Hadoop2.2.0publicclassMRJob{publicstaticclassMapperTestextendsMapper{publicvoidmap(Objectkey,Textvalue,Contextcontext)throwsIOException,InterruptedException{//Dosomecomputationtogetnewvalueandkey...//Checkifnewvalueequaltosom

MapReduce java section Configuration code hadoop hadoop2

8 9 101112 13 14