草庐IT

mapreduce_shuffle

全部标签

hadoop - 在哪里可以找到有关 Mapreduce 中文件系统计数器的信息

在运行mapreduce作业时,我得到如下输出:11/09/1521:35:16INFOmapreduce.Job:Counters:24FileSystemCountersFILE:Numberofbytesread=255967FILE:Numberofbyteswritten=397273FILE:Numberofreadoperations=0FILE:Numberoflargereadoperations=0FILE:Numberofwriteoperations=0Map-ReduceFrameworkMapinputrecords=5Mapoutputrecords=5M

hadoop - 如何使用 AVRO org.apache.avro.mapreduce 接口(interface)进行编程?

我所有的程序都是用hadoop的新MR1接口(interface)(org.apache.hadoop.mapreduce)编写的,所以我也想使用avro的新org.apache.avro.mapreduce。但这对我不起作用。该程序接受avro数据的输入并输出相同的数据。我的程序背后的主要思想是根据avro包装的键/值对hadoop的Mapper和Reducer进行子类化。这是我的工作驱动程序的一部分:AvroJob.setInputKeySchema(job,NetflowRecord.getClassSchema());AvroJob.setOutputKeySchema(job

java - 如何使用 hadoop 2.x 并行运行 MapReduce 任务?

我希望我的map和reduce任务并行运行。然而,尽管尝试了所有的技巧,它们仍然按顺序运行。我读自HowtosettheprecisemaxnumberofconcurrentlyrunningtaskspernodeinHadoop2.4.0onElasticMapReduce,使用以下公式,可以设置并行运行的任务数。min(yarn.nodemanager.resource.memory-mb/mapreduce.[map|reduce].memory.mb,yarn.nodemanager.resource.cpu-vcores/mapreduce.[map|reduce].cp

multithreading - Mapreduce作业是否使用多线程

我很好奇mapreduce作业是否在单台机器上使用多线程。比如我的hadoop集群有10台服务器,默认情况下,如果输入文件足够大,就会有10个mappers。单个映射器是否在单台机器上使用多线程? 最佳答案 Isthesinglemapperusingmultiplethreadinginasinglemachine?是的。Mapreduce作业可以使用多线程映射器(多线程或线程池运行map方法)。我已经为MaponlyHbasejobs使用了更好的CPU利用率...MultiThreadedMapper非常适合如果您的操作是高度C

hadoop - 使用 MultipleOutputs 在 MapReduce 中写入 HBase

我目前有一个MapReduce作业,它使用MultipleOutputs将数据发送到多个HDFS位置。完成后,我使用HBase客户端调用(在MR之外)将一些相同的元素添加到几个HBase表中。使用TableOutputFormat将HBase输出添加为额外的MultipleOutputs会很好。这样,我将分发我的HBase处理。问题是,我无法让它工作。有没有人在MultipleOutputs中使用过TableOutputFormat...?有多个HBase输出?基本上,我正在设置我的收集器,就像这样....OutputcollectorhbaseCollector1=multipleO

hadoop - 如何在 hadoop mapreduce/yarn 中设置 VCORES?

以下是我的配置:**mapred-site.xml**map-mb:4096opts:-Xmx3072mreduce-mb:8192opts:-Xmx6144m**yarn-site.xml**resourcememory-mb:40GBminallocation-mb:1GBhadoop集群中的Vcor​​es显示为8GB,但我不知道如何计算或在哪里配置它。希望有人能帮助我。 最佳答案 简答题如果您只是在单节点集群或小型个人分布式集群上开箱即用地运行hadoop,这很可能无关紧要。您只需要担心内存。长答案vCore用于较大的集群,

r - Amazon Elastic MapReduce 上的 R 映射器脚本故障排除 - 结果不符合预期

我正在尝试使用AmazonElasticMapReduce运行数百万个案例的一系列模拟。这是一个没有reducer的Rscript流作业。我在我的EMR调用--reducerorg.apache.hadoop.mapred.lib.IdentityReducer中使用IdentityReducer。脚本文件在手动传递一行字符串时从Linux机器上的命令行本地测试和运行时工作正常echo"1,2443,2442,1,5"|./mapper.R然后我得到了我期望的一行结果。但是,当我使用EMR上的输入文件中的大约10,000个案例(行)测试我的模拟时,在10,000个输入行中,我只得到了十

ruby - 为什么我的流式命令对于 MapReduce 基本程序会失败?

我试图运行一个RubyHadoop流程序,它在“Ruby权威指南”中给出。这是我使用的命令:hadoopjar/usr/lib/hadoop-0.20/contrib/streaming/hadoop-streaming-0.20.2+737.jar-inputinput/temperature-outputoutput-mapper/home/cloudera/projects/max_temp/map.rb-reducer/home/cloudera/projects/max_temp/reduce.rb文件路径正确。运行命令后,出现如下错误:packageJobJar:[/var

scala - 对于在映射器之间共享信息的增强版 MapReduce,什么是好的应用程序?

我正在构建Spark框架(http://www.spark-project.org/)的增强版。Spark是加州大学伯克利分校的一个项目,可以在RAM中快速执行MapReduce。Spark是用Scala构建的。我正在构建的增强功能允许映射器在计算时共享一些数据。这可能很有用,例如,如果每个映射器都在寻找最佳解决方案,并且他们都希望共享当前最佳解决方案(以尽早剔除不良解决方案)。该解决方案在传播时可能会稍微过时,但这仍应加快解决方案的速度。通常,这称为分支定界方法。我们可以共享单调递增的数字,也可以共享数组和字典。我们也在研究机器学习应用,其中映射器描述局部自然梯度信息,然后在所有节点

java - 在 hadoop 中运行多个 MapReduce 作业

我想运行一系列mapreduce作业,所以最简单的解决方案似乎是jobcontroller。假设我有两份工作,job1和job2。我想在job1之后运行job2。好吧,它遇到了一些问题。经过数小时的调试,我将代码缩小为以下几行:JobConfjobConf1=newJobConf();JobConfjobConf2=newJobConf();System.out.println("***Point1");Jobjob1=newJob(jobConf1);System.out.println("***Point2");Jobjob2=newJob(jobConf2);System.out