Mapreduce1

hadoop - 使用 mapreduce 进行异常检测

我是ApacheHadoop的新手，我真的很期待探索它的更多功能。在基本的wordcount示例之后，我想稍微提高一点。所以我通过阅读HadoopInAction书得到了这个问题陈述。“拿一个网络服务器日志文件。写一个MapReduce程序来汇总每个IP地址的访问次数。再写一个MapReduce程序来查找访问量最高的K个IP地址。这些经常访问者可能是合法的ISP代理(在许多用户之间共享)或者他们可能是抓取者和欺诈者(如果服务器日志来自广告网络)。”任何人都可以帮我解决我应该如何开始吗？实际编写我们自己的代码有点困难，因为hadoop只提供wordcount作为启动的基本示例。非常感谢任

hadoop - Hadoop/MapReduce 的替代模型

按照目前的情况，这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持，但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visitthehelpcenter指导。关闭10年前。最近有一个article在GigaOm中，关于Hadoop的日子已经不多了，还有许多不同的选择，比如Percolator,Dremel和Pregel.ApacheHama,ApacheGiraph,GoldenOrb和GraphLab是Pregel的一些实现。我想知道是否有Percolator和Dremel的开源/闭源实现。

MapReduce hadoop section noreferrer noopener

java - 压缩 hadoop mapreduce 输出的最简单有效的方法

我可以用gzip压缩mapreduce输出"mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec"为hadoop实现zip编解码器会很简单吗？Zip是容器，但我每个存档只需要一个文件，所以使用CompressionCodec接口(interface)创建ZipCodec会很容易吗？或者，也许有一种有效的方法可以将gz文件转换为zip，因为它们可以使用相同的压缩算法？最佳答案没什么大不了的，你可以包装一个java.util.zip.ZipOu

mapreduce hadoop code section java zip gzip

hadoop - HDFS 和 MapReduce 如何处理小文件

我已经在Windows平台上安装了Hadoop和2个其他工作节点(我总共有3个节点)。出于演示目的，我正在处理大约1兆字节的单个文件。工作节点如何划分此文件以进行处理。不同的工作节点每个会处理341(1024/3)KB。或者单个工作节点将处理该文件。如果我处理100个这样的文件。工作节点会分配要处理的文件数量吗？如果我处理一个大约100MB的文件。最佳答案可能的答案，Howworkernodeswoulddividethisfileforprocessing.Woulddifferentworkernodeswouldproce

MapReduce 何处 the block blockquote hadoop hdfs

java - 使用 MapReduce 分析日志文件

这是一个日志文件:2011-10-2606:11:35user1210.77.23.122011-10-2606:11:45user2210.77.23.172011-10-2606:11:46user3210.77.23.122011-10-2606:11:47user2210.77.23.892011-10-2606:11:48user2210.77.23.122011-10-2606:11:52user3210.77.23.122011-10-2606:11:53user2210.77.23.12...我想使用MapReduce按每行的第三个字段(用户)的记录次数降序排列。换句话

MapReduce java code strong 射器 hadoop

hadoop - 色调步骤中的 Mapreduce 作业不清楚

我正在尝试在hue中运行mapreduce作业。我遵循了以下步骤:FillouttheEditNodeform1)Enterooziemrwfasthename,and"oozieMapReduceworkflow"asthedescription.2)NavigatetotheJARfilelocationanduploadtheJARfile.3)ClicktheAddPropertybuttonandaddeachofthesefourproperties:PropertyNameValuemapred.mapper.classorg.apache.oozie.example.S

Mapreduce hadoop section mapred the

hadoop - 如何收集 mapreduce 作业的输出？

我尝试用mapreduce编写一个简单的字数统计程序。我的mapreduce程序只将输出写入文件。但我不希望我的输出写入文件。我想收集该信息或输出(如java集合)以用于我的程序区域的其余部分。例如，如果我在配置单元上提交任何查询，它会返回一个结果集对象，但在内部我的查询将转换为mapreduce程序，并在完成作业后返回结果集对象。与其他mapreduce程序不同，它不会将结果写入文件系统。那么我如何收集输出或者如何在reducer或mapper中准备我自己的对象并在java程序的其他区域收集该对象？我不希望将输出写入文件。最佳答案

mapreduce hadoop section 帕特 bigdata

java - 使用 MapReduce 作业的 HBase 批量删除

我正在尝试使用mapreduce作业从Hbase表中删除行。我收到以下错误。java.lang.ClassCastException:org.apache.hadoop.hbase.client.Deletecannotbecasttoorg.apache.hadoop.hbase.KeyValueatorg.apache.hadoop.hbase.mapreduce.HFileOutputFormat$1.write(HFileOutputFormat.java:124)atorg.apache.hadoop.mapred.ReduceTask$NewTrackingRecordWr

MapReduce HBase apache hadoop code java scalability

java - Hadoop mapReduce 如何在 HDFS 中只存储值

我正在使用它来删除重复行publicclassDLines{publicstaticclassTokenCounterMapperextendsMapper{privatefinalstaticIntWritableone=newIntWritable(1);privateTextword=newText();@Overridepublicvoidmap(Objectkey,Textvalue,Contextcontext)throwsIOException,InterruptedException{Stringline=value.toString();//inthash_code=

储值何在 IntWritable section Text java hadoop mapreduce

sorting - 我们真的需要在 MapReduce 框架中进行排序吗？

我是MapReduce的新手，只是无法理解根据每个分区中的键对映射器输出进行排序的需要。最终我们想要的只是一个reducer被提供一个由几对组成的分区。并且每一对中的键不仅对于相应的分区是唯一的，而且对于馈送到不同reducer的所有分区也是唯一的。为此需要做sort在任何阶段。我们不能使用hashtable吗？将对应于同一键的值分组？将其分解为每个阶段。在映射器阶段，对于每个输出对，我们简单地散列键以找到分区号，然后我们将相应的对附加到属于同一分区的所有此类对的链表中。所以最后，单个映射器获得的输出将是hashtable.其中对于每个分区号，我们都有一个链表没有基于键的顺序配对，即没

中进 MapReduce code 射器 section sorting hadoop

143 144 145146147 148 149