appengine-mapreduce

java - MapReduce(二级)排序/过滤 - 如何？

我有一个聊天室web应用程序不同“区域”的时间戳值(并发用户)的日志文件，格式为“时间戳；区域；值”。对于每个区域，每天每分钟存在一个值。对于每个区域，我想列出每天的最大值，按最大值降序因此，输入文件为#timestamp;zone;value2011-01-0100:00:00;1;102011-01-0100:00:00;2;222011-01-0100:01:00;1;112011-01-0100:01:00;2;212011-01-0200:00:00;1;122011-01-0200:00:00;2;20应该为区域1生产:2011-01-02122011-01-0111对于区

MapReduce java 2011 01 section sorting hadoop

hadoop - 如何在 Hadoop Mapreduce 作业中访问分布式缓存？

我正在尝试将一个小文件传递到我正在使用GenericOptionsParser的-files标志运行的作业:$hadoopjarMyJob.jar-conf/path/to/cluster-conf.xml-files/path/to/local-file.csvdata/inputdata/output这应该将作业发送到我的集群并附加local-file.csv以在需要时提供给Mapper/Reducer。当我在伪分布式模式下运行它时效果很好，但是当我在集群上启Action业时似乎找不到该文件。我正在我的映射器的setup方法中读取文件，如下所示:publicstaticclassT

何在 Mapreduce code section CsvReader hadoop distributed-cache

java - mapreduce 类中的奇怪错误

这个错误看似微不足道，但不会消失。我定义了以下类:importjava.io.IOException;importjava.util.Iterator;importjava.util.StringTokenizer;importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.io.IntWritable;importorg.apache.hadoop.io.LongWritable;importorg.apache.hadoop.io.Text;importorg.apache.hadoop.mapred.FileInputForma

mapreduce java apache import hadoop

hadoop - 在 MapReduce 作业中先运行 Combiner 或 Partitioner

我很困惑，因为我找到了两个答案。1)根据Hadoop权威指南-第3版，第6章-MapSide说:“在写入磁盘之前，线程首先将数据分成与数据最终将发送到的reducer相对应的分区。在其中每个分区，后台线程执行内存中按键排序，如果有组合函数，则在排序的输出上运行。2)Yahoo开发人员教程(Yahootutorial)说Combiner在partitioner之前运行。任何人都可以澄清哪个先运行。最佳答案 MapReduce作业可能包含这些阶段中的一个或所有阶段map合并随机排序减少Partitioner适合第二阶段和第三阶段可以访

Partitioner MapReduce section noreferrer noopener hadoop hdfs

Hadoop MapReduce : Custom Input Format

我有一个文件，其中包含文本和“^”之间的数据:一些文字^在这里^还有一些^更多到这里我正在编写自定义输入格式以使用“^”字符分隔行。即映射器的输出应该是这样的:一些文字去这里还有一些更多内容在这里我编写了一个扩展FileInputFormat的自定义输入格式，还编写了一个扩展RecordReader的自定义记录阅读器。下面给出了我的自定义记录阅读器的代码。我不知道如何处理这段代码。在WHILE循环部分使用nextKeyValue()方法时遇到问题。我应该如何从拆分中读取数据并生成自定义键值？我正在使用所有新的mapreduce包而不是旧的mapred包。publicclassMyRec

MapReduce Hadoop 自定 section IOException

hadoop - mapreduce hadoop中输入分割数与映射器数之间的关系

我是hadoop和mapreduce模型的新手，正在努力弄清楚这些概念。我首先想了解输入拆分的概念和正确的映射器数量。我正在运行mapreducewordcount程序，以下是我的问题。1)输入拆分是如何确定的？我在具有2个不同大小输入的同一个集群上运行同一个程序。file1:size48mb.=>igotnumberofsplits:1inlog.file2:size126mb=>numberofsplits:1file2:size126mb(executedineclipseIDE)=>numberofsplits:4对于126mb的文件，分割数不应该等于2吗？因为我读过block

射器 hadoop section code mapreduce

hadoop - 如何在 hadoop mapreduce 中进行 lzo 压缩？

我想使用lzo来压缩map输出，但我无法运行它!我使用的Hadoop版本是0.20.2。我设置:conf.set("mapred.compress.map.output","true")conf.set("mapred.map.output.compression.codec","org.apache.hadoop.io.compress.LzoCodec");当我在Hadoop中运行jar文件时，它显示无法写入映射输出的异常。我必须安装lzo吗？我必须做什么才能使用lzo？最佳答案 LZO的许可证(GPL)与Hadoop(Apa

中进 hadoop code li mapreduce

Hadoop mapreduce 与级联，在比较基础处理时间时哪个更好？

我也使用过级联以及M/R，与M/R相比，级联作业看起来很慢。看起来我慢了25%到50%。是真的还是我需要在级联中挖掘更多以进行优化。最佳答案我无法将Cascading作业的开销与手绘原始MapReduce作业进行比较，因为它实际上取决于工作负载的复杂性、Cascading的版本、您编写每个作业的方式、Amazon内部的天气或您的网络，等等也就是说，Cascading是对MapReduce的抽象，会有一些开销。但作为一种抽象，它有机会更有效地做事(例如，1.2将在排序期间延迟反序列化数据，原始MR开发人员需要通过Comparato

mapreduce Hadoop Cascading section 的

hadoop - 如何使用 Hadoop 开始使用 MapReduce？

我听说过Hadoop，但我还可以用什么来开始这个主题...还有哪些其他API？一般需要什么来开始在这里编程？你推荐什么来学习这个有趣的问题最佳答案转到homepage的项目，尽可能多地阅读它，在你的本地机器上设置它。按照thissite中的说明进行操作用于设置它。如果你想更深入，我推荐这两本书:Hadoop:ThedefinitiveguideProhadoop 关于hadoop-如何使用Hadoop开始使用MapReduce？，我们在StackOverflow上找到一个类似的问题：

MapReduce hadoop section noreferrer nofollow

.net - 在 .NET 中使用 Thrift 在 Hbase 上进行 MapReduce？

我可以使用HadoopStreaming在.NET中使用thrift在HBase上运行MapReduce作业吗？或者是否有任何其他方法可以从.NET在HBase上运行MapReduce作业？最佳答案您还可以使用RESTAPI(stargate)。然而，thrift或stargate服务器都不是运行MapReduce作业的好方法。两者都需要一个单独的守护进程，这将成为一个单一的争论点，并且不会提供数据局部性。Javamapreduceapi识别输入拆分的数据局部区域。所以关键是将javaapi与.Net一起使用。Thisquest

上进 MapReduce section noreferrer .net hadoop hbase thrift

37 38 394041 42 43