mapreduce_shuffle

hadoop - MapReduce - 对于每个学生，学生发布最多帖子的时间是什么时候

我在Hadoop上转储了SO记录。我想知道什么是回答以下问题的好方法样本记录我的第一次剪辑Key=userid_hour所以现在我可以知道每个用户按小时发帖的数量。然后我需要对这些数据进行后处理以选择每个用户的最大数量，然后查看最活跃的时间。问题我们还有哪些其他选择可以简化这个？最佳答案我想你已经尽可能简单了。第一项工作为您提供每个用户每小时的帖子数输入:记录中级:k=用户+小时；v=1输出:k=用户+小时；v=计数第二个作业发现每个用户最活跃的时间。正如@pangea指出的那样，这涉及降序二级排序。通常，每个reducer调用

MapReduce hadoop amp 34 strong hadoop2

hadoop - 如何使用 MapReduce 映射器将数据统一分发到 reducer？

我对MapReduce仅有较高的理解，但对实现中允许的内容有一个具体的问题。我想知道Mapper在reducer之间均匀分布给定的键值对是否容易(或可能)。可能是这样的(k,v)->(proc_id,(k,v))其中proc_id是处理器的唯一标识符(假设每个键k都是唯一的)。核心问题是，如果reducer的数量不固定(根据输入的大小动态确定；这在实践中是如何完成的吗？)，那么映射器如何生成合理的ID？一种方法是让映射器知道键值对的总数。MapReduce是否允许映射器获得此信息？另一种方法是执行一些少量的额外计算。执行此操作的适当方法是什么？最佳答案

射器分发 section 的 hadoop mapreduce

java - 为什么我在使用 Mapreduce 时得到了一个困惑的结果

我想一定是我的代码有问题，但我找不到。在我的程序中我有:publicstaticclassBrowserMapperextendsMapper和publicstaticclassBrowserReduceextendsReducer{privateIntWritableresult=newIntWritable();publicvoidreduce(Textkey,Iterablevalues,Contextcontext)throwsIOException,InterruptedException{intsum=0;for(IntWritableval:values){sum+=va

Mapreduce 困惑 IntWritable class section java hadoop

java - Hadoop Mapreduce - 访问本地文件系统

我有一个要求，MapReduce代码应该读取每个节点中的本地文件系统。该程序将在HDFS上运行，我无法在用于配置的xml文件中更改hadoop的FileSystem属性。我尝试了以下解决方案，但没有一个给我结果。方法一Configurationconfig=newConfiguration();FileSystemlocalFileSystem=FileSystem.get(config);localFileSystem.set("fs.defaultFS","file:///");BufferedReaderbufferRedaer=newBufferedReader(newInpu

Mapreduce Hadoop import apache java filesystems hdfs

java - MapReduce 作业在 map 部分后显示错误

Wordcount程序在map部分后失败。抛出以下错误。这是我在完成hadoop设置后尝试的第一个mapreduce程序。操作系统:Machadoop版本:1.2.1$HADOOP_OPTS="-Djava.security.krb5.realm=OX.AC.UK-Djava.security.krb5.kdc=kdc0.ox.ac.uk:kdc1.ox.ac.uk-Djava.net.preferIPv4Stack=true"Hadoop日志:14/06/1020:58:59WARNmapred.JobClient:UseGenericOptionsParserforparsingt

MapReduce java IntWritable JobClient mapred hadoop

hadoop - 如何在 MapReduce 结果后将输出文件导出回 CSV

我找不到出路，如何将HadoopMapreduce结果导出回，例如CSV或其他文件格式。有人知道怎么做吗？很想知道。请注意，我指的是Hadoop的结果，例如输出1/part.00000 最佳答案默认情况下，它们实际上是TSV(制表符分隔)，您可以通过设置来更改mapred.textoutputformat.separator=","然后您可以通过hdfs-get命令从HDFS下载它，或使用-merge命令在单个本地文件中获取所有part-ooo*文件的合并输出hadoopfs-gethdfs://nn.example.com/us

何在 MapReduce section code hadoop

hadoop - 将不同 S3 文件夹中的文件作为输入传递给 mapreduce

我们的日志文件存储在S3上的年/月/日/小时桶中。结构见下。我如何将第20天的所有日志作为我的mapreduce程序的输入传递？例如:bucket=logs/year=2014/month=8/day=20/hour=1/log1_1.txtbucket=logs/year=2014/month=8/day=20/hour=2/log2_1.txtbucket=logs/year=2014/month=8/day=20/hour=2/log2_2.txtbucket=logs/year=2014/month=8/day=20/hour=2/log2_3.txtbucket=logs/y

mapreduce 传递 section bucket logs hadoop amazon-web-services amazon-s3

hadoop - 使用 mapreduce 的每个组的前 K 个值

我想编写一个map-reduce算法来为每个组查找前N个值(A或D顺序)Inputdataa,1a,9b,3b,5a,4a,7b,1c,1c,9c,-2d,1b,1a,101,19outputtype1a1,4,7,9,10,19b1,,1,3,5c-2,1,9d1outputtype2a19,10,9,7,4,1b5,3,1,1c9,1,-2d1前3的输出类型1a1,4,7b1,,1,3c-2,1d1请指导我最佳答案您需要编写一个映射器，用逗号分隔输入行并生成一对Text，IntWritable:Text('a,1')->(m

mapreduce hadoop code section queue

java - MapReduce 程序映射任务超时

我遇到了这个奇怪的错误。我编写了一个wordCount程序来计算一个单词在文件中重复的次数。所以当我在hadoop上运行MR代码时，代码卡在“Map100%,Reduce0%”。基本模式是第一个maptask在600秒后超时，然后再次超时，任务自行终止。我检查了JobTracker，任务卡住了，因为Map任务没有完成以等待reduce任务开始。我已经尝试修复它2天，在此期间我删除了原始虚拟UbuntuCloudera并重新安装它-所以我们可以确定这不是配置问题。感谢任何帮助。以下是3个代码文件。WordCount.javapublicclassWordCountextendsConfi

MapReduce java FloatWritable Text class hadoop

hadoop - 在 Hadoop mapreduce 中，是否所有映射器都需要与所有缩减器进行通信？

在mapreduce中，我知道映射器不会相互通信。但是是否所有映射器都需要与所有reducer进行通信？最佳答案这取决于映射器生成的键集。如果它不产生任何需要由特定reducer处理的键，它可能根本不需要与该reducer通信。但是mapper生成的键通常取决于它的输入，并且输入可能因作业而异，因此对于某些作业，每个mapper可能(甚至可能)需要将数据发送到每个reducer。关于hadoop-在Hadoopmapreduce中，是否所有映射器都需要与所有缩减器进行通信？，我们在

射器缩减 section reducer hadoop mapreduce

89 90 919293 94 95