reducing_草庐IT

hadoop - Cassandra CQL3 复合 key 不是由 Hadoop reducer 编写的

我正在使用Cassandra1.2.8，并且有几个HadoopMapReduce作业，它们从一些CQL3表中读取行并将结果写回另一个CQL3表。如果输出CQL3表包含复合键，复合键字段的值不是由reducer写入的-相反，我在cqlsh中执行选择查询时看到这些字段的空值。如果主键不是复合键，则一切正常。具有复合键的输出CQL3表的示例:CREATETABLEevents_by_type_with_source(event_type_idASCII,periodASCII,dateTIMESTAMP,source_nameASCII,events_numberCOUNTER,PRIMAR

hadoop - 通过 hive 将数据插入 hbase 时，reducer 卡在 99%

我有2个节点的hbase集群在amazon-ec2(hadoop1.0.1,hive-0.11.0,hbase-0.94.11,zookeeper-3.4.3)上运行并在EMR节点上创建使用ami-2.4.1。所以在EMR实例上，我有一个指向S3上某个位置的外部表。此外，我还创建了一个hbase-hive表(modelvarlarge,modelval)。现在，我试图将数据从logdata插入到modelvar。但是，reducer阶段卡在99%并导致以下错误:仅供引用，通过zkcli我能够从EMR连接到Ec2zookeeper。外部表:createexternaltablelogda

hadoop - 如何处理 hadoop 中的 straggler reducers

我有一个非常简单的用例...基本上我有一个边缘列表，我试图将它转换成邻接列表..基本上srctargetabacbdbe等等..我要构建的是a[b,c]b[d,e]..andsoon..但时不时地..我碰到一个super节点..它有数百万条边..因此，由于这个stragglerreducer，只键入节点ID会导致MR执行不佳。我一直在努力了解分区程序..但我不知道如何在这里使用它？我该如何解决这个散兵游勇的问题？谢谢最佳答案我不明白你的目的是什么。你用什么来生成一个单一的输出文件？或者你想加快速度？如果你想获得单个输出文件，那么

hadoop - map reduce 程序显示两个文件的交集

MapReduce程序将两个文件作为输入并给出一组在两个文件中都存在的单词(两个文件的交集。)我试过这样..Map函数:将文件作为输入并给出(word,1)作为输出。我在一个名为part-r-00000的文件中得到了这个输出。这一步我对两个文件都做了，现在我有两个文件(两个part-r-00000文件。)如何将此文件作为输入提供给Reduce函数..并给我一些建议来为两个文件的交集编写reduce函数..这是字数统计示例程序:packageorg.apache.hadoop.examples;importjava.io.IOException;importjava.util.Strin

Hadoop 集群 - 如何知道每个 tasktracker 的理想最大 map/reduce 任务数

我刚刚使用Hadoop0.20.205设置了一个Hadoop集群。我有一个主机(NameNode和JobTracker)和另外两个盒子(从机)。我试图了解如何定义要使用的map和reduce任务的数量。到目前为止，我了解到我可以设置每个TaskTracker能够同时处理的最大map和reduce任务数:*mapred.tasktracker.map.tasks.maximum*和*mapred.tasktracker.reduce.tasks.maximum*.此外，我还可以使用*mapred.map.tasks*定义整个集群可以同时运行的最大map任务数。是吗？如果是这样，我怎么知道

java - Hadoop 2.2 链 MapReduce 作业 Map -> Reducer -> Map -> Reducer

我有两个MapReduce作业，第一个Reducer的输出是第二个Mapper的输入:Map1->Reduce1->Map2->Reduce2现在Map2从Reduce1输出的文件中读取。所以Map1->Reduce1和Map2->Reduce2是独立的。它有效，但如果Reduce1的输出直接是Map2的输入，它会更容易，我认为会更优化。有办法吗？在这种情况下，Map2将只是一个身份映射器，所以如果我可以这样做会更好:Map1->Reduce1->Reduce2Reduce1、Map2和Reduce2具有相同的输入和输出类型。谢谢! 最佳答案

Hadoop reducer 清理函数

在hadoopreduce代码中，我有一个打印总计数的清理函数，但它打印了两次。我认为这是因为它正在打印键+值的计数和单独的计数，但我不确定。我的代码是这样的:protectedvoidcleanup(Contextcontext)throwsIOException,InterruptedException{Textt1=newText("TotalCount");context.write(t1,newIntWritable(count));}在reducer类中，输出是:TotalCount9477TotalCount4738 最佳答案

hadoop - 插入覆盖本地目录启动 map reduce 作业以进行简单查询

我有两个配置单元查询select*fromtab1limit3;这会快速返回3行，而无需启动任何mapreduce作业；如果我要求将输出写入本地目录，则相同的查询`INSERTOVERWRITELOCALDIRECTORY"/tmp/query1/"select*fromtab1limit3;此查询启动一个mapreduce作业，扫描表的所有文件，然后返回3行，所讨论的表很大，因此扫描整个表需要很长时间。为什么两个查询的执行方式不同？最佳答案一个简单的解释是:当您在Hive中执行一个简单的select*fromtab1limit

hadoop - 哪个决定了 hive 中 map 任务和 reduce 任务的数量？

我使用配置单元运行查询“select*fromT1,T2whereT1.a=T2.b”，架构为T1(aint,bint),T2(aint,bint)，当它运行时，生成了6个map任务和1个reduce任务，我想问一下，哪个决定了map任务和reduce任务的数量？数据量是多少？最佳答案 map任务的数量取决于数据量、block大小和分割大小。例如:如果您的block大小为128MB，文件大小为1GB，那么将有8个映射任务。您可以使用拆分大小来控制它。Hive作业中的reducer数量默认为1。你必须通过配置更新它mapred.re

java - 在 Hadoop 中链接一个 Reduce-only 作业

我正在使用ControlledJobs在Hadoop2.2.0中实现一个MR作业链。基本架构是这样的:mapper1->reducer1->mapper2->reducer2但是，mapper2是标识。有没有办法可以轻松让reducer1生成key-value-pairs传给reducer2？现在，两轮的作业输出配置如下://setintermediate/mapperoutputjob.setMapOutputKeyClass(Text.class);job.setMapOutputValueClass(Text.class);//setreduceroutputjob.setOut