mapreduce_shuffle

hadoop - 直接指定 Hadoop mapreduce 输入键(不是从文件)

我想使用mapreduce生成一些数据。我想用一个参数N调用作业，并用从1到N的每个整数调用一次Map。显然我想要一个Mapper>...这很简单。但我不知道如何生成输入数据!有没有InputFormat我没有看到可以让我直接从集合中提取键+值的地方？最佳答案是否希望每个映射器处理从1到N的所有整数？或者您想在并发运行的映射器之间分配整数1到N的处理？如果是前者，我相信您需要创建自定义InputFormat。如果是后者，最简单的方法可能是生成一个包含1到N整数的文本文件，每个整数占一行，然后使用LineInputFormat。

mapreduce 是从 section 射器 code hadoop

performance - 平衡 HDFS -> HBase mapreduce 作业的想法

对于客户，我一直在研究在AWSEC2上运行Cloudera风格的hadoop集群的短期可行性。在大多数情况下，结果是预期的，逻辑卷的性能大多不可靠，也就是说尽我所能让集群在这种情况下运行得相当好。昨晚我对他们的导入程序脚本进行了全面测试，以从指定的HDFS路径中提取数据并将其推送到Hbase。他们的数据有些不同寻常，因为记录小于1KB，并且被压缩到9MB的gzipblock中。总共有大约50万条文本记录从gzip中提取出来，经过完整性检查，然后推送到reducer阶段。作业在环境的预期范围内运行(溢出记录的数量是我预料到的)但是一个非常奇怪的问题是当作业运行时，它使用8个reducer

performance mapreduce reducer section 的 configuration hadoop hbase

Hadoop shuffle 使用哪种协议(protocol)？

在Hadoop数据的洗牌阶段，映射数据在集群的节点之间传输根据reducer的分区。Hadoop使用什么协议(protocol)在reduce阶段跨节点执行数据洗牌？最佳答案我第一次真的笑了，但是整个洗牌和合并是由一个HTTPServlet完成的。您可以在匿名类MapOutputServlet的Tasktrackers源代码中看到这一点。它获取带有任务和作业ID的HTTP请求，然后它将传输传入的输入流进入磁盘上的本地文件系统。关于Hadoopshuffle使用哪种协议(protoc

protocol shuffle section code 洗牌 hadoop protocols mapreduce distributed-computing

graph - 将多个顺序 HBase 查询的结果传递给 Mapreduce 作业

我有一个HBase数据库，它存储有向图的邻接表，每个方向的边存储在一对列族中，其中每一行表示一个顶点。我正在编写一个mapreduce作业，它将所有节点作为其输入，这些节点也具有从相同顶点指向的边，因为具有指向其他顶点(指定为查询的主题)的边。这有点难以解释，但在下图中，当查询顶点“A”时，作为输入的节点集将是{A，B，C}，因为它们都具有来自顶点的边'1':为了在HBase中执行此查询，我首先在产生{1}的反向边列族中查找边为“A”的顶点，然后，对于该集合中的每个元素，从该元素中查找边为“A”的顶点该集合的前向边缘列族。这应该会产生一组键值对:{1:{A,B,C}}。现在，我想获取这

Mapreduce 传递射器 section 的 graph hadoop hbase

hadoop - MapReduce 程序的输入文件是强制性的吗？

我正在处理一个用例，在该用例中，我使用mapreduce程序生成随机数据，并且不需要HDFS中的任何输入文件。如果我不提供输入路径，MR程序将无法运行。所以，目前我有一个虚拟输入文件。有什么办法可以避免这种情况吗？最佳答案通常MR程序有一些数据需要处理。但是，可能存在像随机生成这样的场景，其中没有要处理的数据。查看TeraGen用于随机数生成的程序，它将行数和输出目录作为输入。另外，我还没有尝试过DataGenerator,但看起来很有趣。关于hadoop-MapReduce程序的

强制性 MapReduce section hadoop noreferrer

hadoop - 使用 Hector 对 Cassandra 数据运行 mapreduce

我一直在尝试使用Java客户端“HECTOR”对存储在Cassandra中的数据运行简单的map-reduce作业。我已经成功运行了这个漂亮的blogpost中解释的hadoop-wordcount示例.我也读过HadoopSupport文章。但我想做的在实现方面有点不同(wordcount示例使用一个脚本，其中提到了mapreduce-site.xml)。我希望有人能帮助我了解如何在分布式模式下运行map-reduce作业，而不是在cassandra数据上从“HECTOR”本地运行。我的代码在本地模式下成功运行map-reduce作业。但我想要的是在分布式模式下运行它们并将结果作为新

Cassandra mapreduce 34 code job hadoop hector

Hadoop MapReduce 思维

我是hadoopmapreduce框架领域的新手。自己看了很多教程，了解了框架。我已经在伪分布式模式下成功配置了一个hadoop设置。我有两个特定任务需要在HadoopMapReduce中完成。我有许多具有以下格式的数据文件。交换消息的数量；用户1；用户2；时间戳；例如:5；约翰·多伊；约翰·史密斯;1900年1月1日；我想完成的是对用户名进行数据屏蔽(例如在用户名之上构建SHA256，以便它们是匿名的。)汇总给定时间段(比如1周)内交换的消息数现在让我们来回答我的问题:据我目前的了解，hadoopmapreduce框架就是为了完成第二个任务。我可以映射键值(交换消息的两个用户名，消息

MapReduce Hadoop section

hadoop - 使用 Hadoop/Mapreduce 计算数字的平均值

我正在使用Hadoop/Mapreduce计算数字的平均值有结构guidbanidcountviewg1b11g1b21g1b12g1b11g2b11g2b21g2b11g2b31g3b11我想要每个guidbanid的平均countview计数？(我的想法是average=5/2withguidg1(2是总数另一个banid:b1，b2)) 最佳答案因此，如果我理解您的问题，您正在寻找的答案可能如下所示:g1b11g1b21g1b12g1b11Averagefor"g1"=5/2(totalcount/uniquebanidco

Mapreduce hadoop strong section banid numbers average

java - 向 reducer-MapReduce 发送多个参数

我编写了一个代码，它执行类似于SQLGroupBy的操作。我拿的数据集在这里:250788681419,20090906,200937,200909,619,SUNDAY,WEEKEND,ON-NET,MORNING,OUTGOING,VOICE,25078,PAY_AS_YOU_GO_PER_SECOND_PSB,SUCCESSFUL-RELEASEDBYSERVICE,17,0,1,21.25-10-1452-1452-17publicclassMyMapextendsMapper{publicvoidmap(LongWritablekey,Textvalue,Contextcon

reducer-MapReduce MapReduce public DoubleWritable attribute java hadoop

hadoop - 将环境变量传递给 Hive Transform 或 MapReduce

我正在尝试将自定义环境变量传递给Hive转换中使用的可执行文件(下例中的my-mapper.script)例如:SELECTTRANSFORM(x,y,z)USING'my-mapper.script'FROM(SELECTx,y,zFROMtable)我知道在Hadoop流中可以使用-cmdenvEXAMPLE_DIR=/home/example/dictionaries/但我不知道如何在HiveTransform/MapReduce中执行此操作。有什么想法吗？最佳答案您可以使用简单的两行bash脚本包装您的脚本来设置环境。例

Transform MapReduce section code my-mapper hadoop hive hadoop-streaming

142 143 144145146 147 148