mapReduce_草庐IT

hadoop - 在 map reduce 中解决这个问题的最佳方法是什么？

输入数据集如下所示:colA,colB,colc,时间1,2,1,2012-12-2212:23:301,2,3,2012-12-2212:23:401,2,2,2012-12-2212:24:202,3,1,2012-12-2212:25:30并且输出将是下一次和当前时间的差值，即(时间+1-时间)。请查看输出列以获取更多信息。colA,colB,colc,时间,输出1,2,1,2012-12-2212:23:30,101,2,2,2012-12-2212:23:40,401,2,3,2012-12-2212:24:20,02,3,1,2012-12-2212:25:30,0非常感谢

hadoop - Elastic MapReduce (EMR) 的扩展？

我正在评估EC2/EMR用于运行约20个节点的Hadoop集群。(customJAR集群)。我已经在单节点3.3GHz2GBRAM本地VMWare实例上运行了简单的WordCount示例，该实例只需不到10秒即可完成。WordCount示例需要3分钟才能在EMR上完成2c1.mediumm实例(不包括3-5分钟的启动时间)。2个m1.small实例花费相同的时间。在EMR上运行作业会有一些开销，也许这个问题规模太小，所以这似乎可以理解。大约在什么规模的问题上，您开始看到云的性能优势？或者大约有多少个节点或计算单元？最佳答案如果您

MapReduce Elastic section EMR noreferrer hadoop amazon-ec2 cloud

python - 在每个映射器之间共享特定数据

我想添加一个特定的记录子集，以便在每个映射器中与每个记录block合并，我通常如何在Hadoop中执行此操作？在Python流媒体包mrJob中？最佳答案 DistributedCache是Map-Reduce框架提供的一种设施，用于缓存应用程序所需的文件(文本、存档、jar等)。应用程序通过url(hdfs://或http://)指定要通过JobConf缓存的文件。DistributedCache假定通过hdfs://url指定的文件已经存在于文件系统中由url指定的路径。在该节点上执行作业的任何任务之前，框架会将必要的文件复制

射器 python section DistributedCache strong hadoop mapreduce hadoop-streaming mrjob

hadoop - 调试教程 Hadoop Pipes-Project

我正在处理这个tutorial并到达最后一部分(有一些小的变化)。现在，我遇到了无法理解的错误消息。damian@damian-ThinkPad-T61:~/hadoop-1.1.2$bin/hadooppipes-Dhadoop.pipes.java.recordreader=true-Dhadoop.pipes.java.recordwriter=true-inputdft1-outputdft1-out-programbin/word_count13/06/0920:17:01INFOutil.NativeCodeLoader:Loadedthenative-hadooplibr

Pipes-Project Project mapred hadoop INFO mapreduce

hadoop - 如何让 Pig 将多个文件馈送到一个映射器中

是否可以让Pig使用一个映射器处理多个小文件(假设这样做会提高工作速度)。我们有一个问题，即hdfs中有数千个小文件，而pig创建了数百个映射器。Pig是否提供了解决此问题的简单(完整或部分)解决方案？最佳答案您可以利用这些属性将这些多个文件组合成一个文件，以便它们由单个map处理:pig.maxCombinedSplitSize–指定要由单个映射处理的数据的大小(以字节为单位)。合并较小的文件，直到达到此大小。pig.splitCombination–打开或关闭合并拆分文件(默认设置为“true”)。此功能适用于PigStor

射器送到 section strong hadoop mapreduce hdfs apache-pig

hadoop - 将 Mapreduce 作业的 Reducer 输出写入单个文件

我已经为HBase中的数据编写了一个map-reduce作业。它包含多个映射器和一个reducer。Reducer方法接收映射器提供的数据并对其进行一些分析。在HBase中的所有数据处理完成后，我想通过单个Reducer将数据写回HDFS中的文件。目前每次拿到新的数据都可以写到HDFS，但是最后不知道怎么把最后的结论写到HDFS。最佳答案因此，如果您尝试将单个reducer的最终结果写入HDFS，您可以尝试以下任何一种方法-使用HadoopAPIFileSystem的create()函数从reducer写入HDFS。在最终计算后

Mapreduce Reducer section hadoop hbase

hadoop - 组合器是否有条件地运行

min.num.spills.for.combine(默认3)这是什么意思？a)最低编号map的溢出是为了让组合器运行？所以即使我们指定了一个组合器，它也不能保证运行？b)最低编号在组合器在通过io.sort.factor创建的合并/排序的单个文件上运行之前发生的溢出。因此，每次通过合并创建一个新文件时，组合器都会在其上运行，前提是没有。溢出量为min3我觉得正确答案是a)，但任何人都可以证实这一点。最佳答案当map函数产生中间结果并首先将它们发送到buffer时，就会开始分区和排序，如果指定了combiner，此时会调用它。此

hadoop 组合 section code stackoverflow mapreduce combiners

hadoop - Pig Elephant-Bird 找到接口(interface) org.apache.hadoop.mapreduce.JobContext，但类是预期的

我正在使用CDH4运行Hadoop2.0，并使用OracleJava1.6r31构建了象鸟库我的pig脚本:registerelephant-bird-2.2.3.jarlog=load'loggy.log.lzo'usingcom.twitter.elephantbird.pig.store.LzoPigStorage('');limited=limitlog100;dumplimited;结果:PigStackTrace---------------ERROR2117:Unexpectederrorwhenlaunchingmapreducejob.org.apache.pig.i

hadoop Elephant-Bird apache java lzo elephantbird

java - hadoop如何通过引用传递？

ChainMapper.addReducer和addMapper的第7个参数是将数据作为值或引用传递。当reducer可以在与mapper不同的机器上运行时，我无法理解如何将数据作为引用传递。Hadoop高手请回复最佳答案 Chain类在Mapper或Reducer之前或之后添加额外的Mapper转换。它发生在worker的本地计算中。没有什么需要将键和值序列化、发送到另一台机器并再次处理。它只是在线发生。这就是为什么这可能会令人困惑，因为我们不习惯Mapper从字面上看另一个操作输出的相同对象。那将是更有效的事情，通过引用传递。

传递 hadoop code section java mapreduce

hadoop - map reduce 链接未正确执行

你好，我发现mapreduce链有点问题。我必须形成这样的链映射器->reducer->映射器从我的第一个mapper到reducer的流程一直很好，这个reducer的输出数据不能正确地转到下一个mapper。这是我尝试过的一个简单的代码示例这是我的第一个映射器publicvoidmap(LongWritablekey,Textvalue,OutputCollectoroutputCollector,Reporterreporter)throwsIOException{StringmaxSalary=value.toString().split(",")[4];outputColle

hadoop reduce 射器 IntWritable class mapreduce bigdata