草庐IT

Mapreduce1

全部标签

graph - 将多个顺序 HBase 查询的结果传递给 Mapreduce 作业

我有一个HBase数据库,它存储有向图的邻接表,每个方向的边存储在一对列族中,其中每一行表示一个顶点。我正在编写一个mapreduce作业,它将所有节点作为其输入,这些节点也具有从相同顶点指向的边,因为具有指向其他顶点(指定为查询的主题)的边。这有点难以解释,但在下图中,当查询顶点“A”时,作为输入的节点集将是{A,B,C},因为它们都具有来自顶点的边'1':为了在HBase中执行此查询,我首先在产生{1}的反向边列族中查找边为“A”的顶点,然后,对于该集合中的每个元素,从该元素中查找边为“A”的顶点该集合的前向边缘列族。这应该会产生一组键值对:{1:{A,B,C}}。现在,我想获取这

hadoop - MapReduce 程序的输入文件是强制性的吗?

我正在处理一个用例,在该用例中,我使用mapreduce程序生成随机数据,并且不需要HDFS中的任何输入文件。如果我不提供输入路径,MR程序将无法运行。所以,目前我有一个虚拟输入文件。有什么办法可以避免这种情况吗? 最佳答案 通常MR程序有一些数据需要处理。但是,可能存在像随机生成这样的场景,其中没有要处理的数据。查看TeraGen用于随机数生成的程序,它将行数和输出目录作为输入。另外,我还没有尝试过DataGenerator,但看起来很有趣。 关于hadoop-MapReduce程序的

hadoop - 使用 Hector 对 Cassandra 数据运行 mapreduce

我一直在尝试使用Java客户端“HECTOR”对存储在Cassandra中的数据运行简单的map-reduce作业。我已经成功运行了这个漂亮的blogpost中解释的hadoop-wordcount示例.我也读过HadoopSupport文章。但我想做的在实现方面有点不同(wordcount示例使用一个脚本,其中提到了mapreduce-site.xml)。我希望有人能帮助我了解如何在分布式模式下运行map-reduce作业,而不是在cassandra数据上从“HECTOR”本地运行。我的代码在本地模式下成功运行map-reduce作业。但我想要的是在分布式模式下运行它们并将结果作为新

Hadoop MapReduce 思维

我是hadoopmapreduce框架领域的新手。自己看了很多教程,了解了框架。我已经在伪分布式模式下成功配置了一个hadoop设置。我有两个特定任务需要在HadoopMapReduce中完成。我有许多具有以下格式的数据文件。交换消息的数量;用户1;用户2;时间戳;例如:5;约翰·多伊;约翰·史密斯;1900年1月1日;我想完成的是对用户名进行数据屏蔽(例如在用户名之上构建SHA256,以便它们是匿名的。)汇总给定时间段(比如1周)内交换的消息数现在让我们来回答我的问题:据我目前的了解,hadoopmapreduce框架就是为了完成第二个任务。我可以映射键值(交换消息的两个用户名,消息

hadoop - 使用 Hadoop/Mapreduce 计算数字的平均值

我正在使用Hadoop/Mapreduce计算数字的平均值有结构guidbanidcountviewg1b11g1b21g1b12g1b11g2b11g2b21g2b11g2b31g3b11我想要每个guidbanid的平均countview计数?(我的想法是average=5/2withguidg1(2是总数另一个banid:b1,b2)) 最佳答案 因此,如果我理解您的问题,您正在寻找的答案可能如下所示:g1b11g1b21g1b12g1b11Averagefor"g1"=5/2(totalcount/uniquebanidco

java - 向 reducer-MapReduce 发送多个参数

我编写了一个代码,它执行类似于SQLGroupBy的操作。我拿的数据集在这里:250788681419,20090906,200937,200909,619,SUNDAY,WEEKEND,ON-NET,MORNING,OUTGOING,VOICE,25078,PAY_AS_YOU_GO_PER_SECOND_PSB,SUCCESSFUL-RELEASEDBYSERVICE,17,0,1,21.25-10-1452-1452-17publicclassMyMapextendsMapper{publicvoidmap(LongWritablekey,Textvalue,Contextcon

hadoop - 将环境变量传递给 Hive Transform 或 MapReduce

我正在尝试将自定义环境变量传递给Hive转换中使用的可执行文件(下例中的my-mapper.script)例如:SELECTTRANSFORM(x,y,z)USING'my-mapper.script'FROM(SELECTx,y,zFROMtable)我知道在Hadoop流中可以使用-cmdenvEXAMPLE_DIR=/home/example/dictionaries/但我不知道如何在HiveTransform/MapReduce中执行此操作。有什么想法吗? 最佳答案 您可以使用简单的两行bash脚本包装您的脚本来设置环境。例

hadoop - 原生 mapreduce VS hbase mapreduce

如果我使用TableMapReduceUtil(Hbase)创建MR作业,似乎hbase扫描器将数据馈送到映射器并将数据从reducer转换为特定的hbase输出格式以将其存储在hbase表中。出于这个原因,我预计hbasemapreduce作业将比本地MR作业花费更多时间。那么,Hbase作业比原生MR需要多长时间? 最佳答案 关于通过HBase进行的读取可能比直接使用文件的本地map/reduce慢2-3倍。在recentlyannouncedHBase0.98他们添加了对HBase快照进行映射/缩减的功能。可以看到thispr

java - Hadoop MapReduce - 如何提高并行度

我遇到了一个问题。我有一个包含机场和航类信息的数据集(CSV文件),例如机场代码、航类代码、航类到达日期和时间、航类应该到达的日期和时间等。现在,我有数据集只有两年-2006年和2007年。我正在使用javamapreduceAPI作为解决方案。我必须找出两年内每个机场的平均航类延迟,并将输出存储在两个单独的文件中-一个用于2006年,另一个用于2007年。输出还应按airportCode排序。我的方法是这样的:FullDataset->map()->->customPartitionertopartitiononlybyyear->reduce((year,airportCode),

hadoop - HDInsight hadoop-mapreduce-examples.jar 输出在哪里?

我在HDInsight中运行示例wordcount应用程序命令成功运行,但我找不到输出。我运行的命令是hadoopjarhadoop-mapreduce-examples.jarwordcount/example/data/gutenberg/davinci.txt/user/joe/WordCountOutput我期待在文件系统上创建一些东西。但我没有看到/user/joe/创建。请指教。 最佳答案 默认情况下,HDInsight使用Azureblob存储作为其HDFS存储,因此您的输出位于与集群关联的存储帐户中。你可以使用类似C