草庐IT

mapreduce_shuffle

全部标签

Python 和 MapReduce : beyond basics -- how to do more tasks on one database

我有一个巨大的txt数据存储,我想在其中收集一些统计数据。使用Hadoop流和Python我知道如何实现MapReduce以在单个列上收集统计信息,例如计算100个类别中的每个类别有多少条记录。我创建了一个简单的mapper.py和reducer.py,并将它们分别作为-mapper和-reducer插入到hadoop-streaming命令中。现在,我对如何实际处理更复杂的任务有点不知所措:除了上述类别(例如地理位置、类型、日期等)之外,还收集各种其他列的各种统计数据。所有这些数据都在同一个txt文件中。我是否将mapper/reducer任务链接在一起?我是否传递最初很长的键值对(

hadoop - Mapreduce 并行副本与 http 线程

我无法了解以下2个mapreduce作业配置属性之间的差异。mapreduce.reduce.shuffle.parallelcopiesmapreduce.tasktracker.http.threadsmapreduce.reduce.shuffle.parallelcopies是在复制(洗牌)阶段由reduce运行的并行传输的数量。mapreduce.tasktracker.http.threads是http服务器的工作线程数。这用于map输出获取。parallelcopies表示并行传输的数量,我猜它指的是一次将map输出并行传输到reducer。httpthreads表示要在

java - 在 MapReduce 中组合聚类算法

对于我的大学项目,我最初想在MapReduce上实现一个组合聚类算法。我已经完成了KMeans。现在我的问题是:能否将任何其他聚类算法与MapReduce上的Kmeans相结合?如果是,是什么算法,过程是怎样的?如果无法合并,如何对现有KMeans进行增强? 最佳答案 您可以应用一种方法来智能地选择初始质心,而不是随机选择它们。有论文介绍了改进的K-Means算法。您可以引用其中的一个或多个并创建您自己的改进K-Means算法。 关于java-在MapReduce中组合聚类算法,我们在S

hadoop - 在 Hadoop 集群中为 MapReduce 作业部署 JAR

抱歉这个愚蠢的问题。我在CentOSlinux中有一个5节点的hadoop集群。名称节点/职位追踪器/二级名称节点/数据节点-2我写了一个mapreduce并编译了JAR。我需要将JAR部署到哪个节点?提前致谢。 最佳答案 在一个典型的hadoop集群中,应该有客户端节点。客户端节点用于在hadoop集群上运行客户端应用程序和集群管理工具。客户端机器执行以下任务:在HDFS集群中加载数据提交MapReduce作业(描述如何处理数据)在作业完成后检索或查看作业结果提交Pig或Hive查询Hadoop管理员通常在安装和配置hadoop集

hadoop - MapReduce 作业作为用户在/user/yarn/.staging 目录上获得权限错误运行

我有一个运行Hive操作的Oozie工作流。配置单元操作非常简单,它只是从一个表中读取副本到另一个表。该作业具有以下属性:user.name=yarnmapreduce.job.user.name=cloudfeeds作业失败并出现以下错误:15/07/1618:45:25INFOmapreduce.Job:Jobjob_1435680786374_0060failedwithstateFAILEDdueto:Applicationapplication_1435680786374_0060failed2timesduetoAMContainerforappattempt_143568

java - 执行一个简单的 mapreduce 函数以在 Hadoop 的日志文件中搜索字符串

当我在eclipse中使用本地文件系统中的输入文件执行它时,mapreduce工作正常。但是当我通过将输入文件放入HDFS来在HortonworksSandbox中执行jar文件时,stringKey变量没有被设置,即stringKey在mapper中为null但我从main函数实例化它并且可以在那里访问。我的代码有什么错误吗?importjava.io.IOException;importjava.util.Iterator;importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.io.IntWritable;importorg

hadoop - 使用 Hue 的 MapReduce oozie 工作流

我正在使用AWS并尝试使用hue为仅map作业创建oozie工作流。我为此采取了mapreduce操作。在尝试了很多方法之后,我无法完成它。我从CLI运行我的工作,它工作正常。我在HDFS中创建了一个名为mapreduce的目录,并将我的driver.java和mapper.java放入其中。在mapreduce目录下,我创建了lib目录并将我的可运行jar放入其中。我附上色调界面的屏幕截图。我遗漏了一些东西,或者我似乎无法将可运行的jar放在适当的位置。除了Hue中的输入和输出目录,我还想添加一个额外的参数。我该怎么做?我的疑惑在于2015-11-0614:56:57,679WARN

java - 使用某种数据类型作为 MapReduce 作业的输入。

我正在处理一组MapReduce作业,这些作业将情节摘要列表转换为映射到电影ID的每个单词的索引以及它被使用的次数。我有一份工作接受输入并创建一个节点链表,其中包含单词、它来自的电影和次数。我的第二份工作使用这个LinkedList并使用单词作为键,使用电影ID和出现次数作为值,并吐出映射到每部电影的每个单词的索引以及出现次数。调用FileInputFormat.addInputPath()时,我可以使用Path()或String,每个元素用逗号分隔。拥有一个包含我的LinkedList包含的所有数据的大量字符串并不难,但让映射器使用LinkedList作为输入会更好。我读过有关链接M

java - MapReduce reducer 错误输出

我有一个包含以下输入的大型TSV文件:Site1Tag1Site1Tag34Site1Tag8Site2Tag75Site2Tag54Site2Tag8Site3Tag24Site3Tag34Site3Tag1...我想在hadoopMapReduce的帮助下找到输入中所有站点之间的相似站点对以及每对站点中相似标签的数量。呈现部分输入的输出:Site1Site21//Site1issimilartoSite2with1tag(Tag8)Site1Site32//Site1issimilartoSite3with2tag(Tag1andTag34)Site2Site11Site3Site

hadoop - Mapreduce 中可以用combiner 代替reduce 吗?

我们可以在Mapreduce作业中使用combiner代替reduce吗?如果没有,我们可以用什么来代替mapreduce作业中的reducer? 最佳答案 严格来说,不是。组合器只有在至少有一个reducer被调用时才会被调用。当没有reducer时,作业停止在map阶段,省略了对map任务输出的本地排序。组合器也需要这种排序(它们实际上是本地reducer)。所以,没有reducer=>没有组合器。但是,如果您使用映射器内聚合,有时可以模拟组合器的操作。例如,您可以将来自映射器的wordcount结果存储在本地数据结构中,在每个