草庐IT

mapReduce

全部标签

hadoop - 如何使用 AVRO org.apache.avro.mapreduce 接口(interface)进行编程?

我所有的程序都是用hadoop的新MR1接口(interface)(org.apache.hadoop.mapreduce)编写的,所以我也想使用avro的新org.apache.avro.mapreduce。但这对我不起作用。该程序接受avro数据的输入并输出相同的数据。我的程序背后的主要思想是根据avro包装的键/值对hadoop的Mapper和Reducer进行子类化。这是我的工作驱动程序的一部分:AvroJob.setInputKeySchema(job,NetflowRecord.getClassSchema());AvroJob.setOutputKeySchema(job

bash - 如果目录不存在,使用 bash 在 HDFS 中创建目录

我想测试一个目录是否存在于Hadoop分布式文件系统(HDFS)中。如果目录不存在,我想创建该目录,否则不执行任何操作。当我修改http://jugnu-life.blogspot.com/2012/10/hadoop-fs-test-example.html处的代码时:#!/bin/bashdirectory=/raw/tool/ifhadoopfs-test–d$directory;thenecho"Directoryexists"elsehadoopfs-mkdir$directoryecho"Creatingdirectory"fi我得到错误:-test:Toomanyargu

java - 如何使用 hadoop 2.x 并行运行 MapReduce 任务?

我希望我的map和reduce任务并行运行。然而,尽管尝试了所有的技巧,它们仍然按顺序运行。我读自HowtosettheprecisemaxnumberofconcurrentlyrunningtaskspernodeinHadoop2.4.0onElasticMapReduce,使用以下公式,可以设置并行运行的任务数。min(yarn.nodemanager.resource.memory-mb/mapreduce.[map|reduce].memory.mb,yarn.nodemanager.resource.cpu-vcores/mapreduce.[map|reduce].cp

java - 如何对 Hadoop 集群进行性能分析

有谁知道如何对Hadoop集群中运行的所有java代码进行性能分析?我会用一个简单的例子来解释。如果我们做一个本地java开发,我们可以运行Yourkit来测量每个类的每个方法占用的CPU百分比。我们可以看到类A调用了方法X,这占用了整个应用程序90%的执行时间,然后修复了代码中的低效问题。但是如果我们正在做一个mapreduce作业并在集群中运行它,我也想看看是什么东西是缓慢的:我们的map/reduce代码,或者框架本身。所以,我想要一个服务来获取有关每个类/方法调用的信息及其执行时间百分比,将其收集到HDFS中的某处,然后分析方法调用树和CPU消耗。问题:有人知道这样的解决方案是

multithreading - Mapreduce作业是否使用多线程

我很好奇mapreduce作业是否在单台机器上使用多线程。比如我的hadoop集群有10台服务器,默认情况下,如果输入文件足够大,就会有10个mappers。单个映射器是否在单台机器上使用多线程? 最佳答案 Isthesinglemapperusingmultiplethreadinginasinglemachine?是的。Mapreduce作业可以使用多线程映射器(多线程或线程池运行map方法)。我已经为MaponlyHbasejobs使用了更好的CPU利用率...MultiThreadedMapper非常适合如果您的操作是高度C

java - 在 Hadoop 中并行化 Ruby reducer?

Ruby中的一个简单的wordcountreducer如下所示:#!/usr/bin/envrubywordcount=Hash.newSTDIN.each_linedo|line|keyval=line.split("|")wordcount[keyval[0]]=wordcount[keyval[0]].to_i+keyval[1].to_iendwordcount.each_pairdo|word,count|puts"#{word}|#{count}"end它在STDIN中获取所有映射器的中间值。不是来自特定的key。所以实际上只有一个缩减器(而不是每个单词或每组单词的缩减器)

hadoop - 使用 MultipleOutputs 在 MapReduce 中写入 HBase

我目前有一个MapReduce作业,它使用MultipleOutputs将数据发送到多个HDFS位置。完成后,我使用HBase客户端调用(在MR之外)将一些相同的元素添加到几个HBase表中。使用TableOutputFormat将HBase输出添加为额外的MultipleOutputs会很好。这样,我将分发我的HBase处理。问题是,我无法让它工作。有没有人在MultipleOutputs中使用过TableOutputFormat...?有多个HBase输出?基本上,我正在设置我的收集器,就像这样....OutputcollectorhbaseCollector1=multipleO

configuration - 为什么 Hadoop 中正确的 reduce 数量是 0.95 或 1.75?

hadoop文档指出:Therightnumberofreducesseemstobe0.95or1.75multipliedby(*mapred.tasktracker.reduce.tasks.maximum).With0.95allofthereducescanlaunchimmediatelyandstarttransferringmapoutputsasthemapsfinish.With1.75thefasternodeswillfinishtheirfirstroundofreducesandlaunchasecondwaveofreducesdoingamuchbett

java - 所有 map task 的 Hadoop 缓存文件

我的map函数必须为每个输入读取一个文件。那个文件根本没有改变,它只是为了阅读。我认为分布式缓存可能对我有很大帮助,但我找不到使用它的方法。我认为我需要覆盖的publicvoidconfigure(JobConfconf)函数已被弃用。好吧,JobConf肯定被弃用了。所有DistributedCache教程都使用已弃用的方式。我能做什么?我可以覆盖另一个配置功能吗?这些是我的map函数的第一行:Configurationconf=newConfiguration();//loadtheMFileFileSystemfs=FileSystem.get(conf);PathinFile=

hadoop - 如何在容器格式的 Hadoop 中使用 Snappy

我必须使用Snappy来压缩mapo/p和map-reduceo/p。此外,这应该是可拆分的。正如我在网上学习的那样,要使Snappy编写可拆分的o/p,我们必须在类似容器的格式中使用它。你能建议如何去做吗?我试着在网上找一些例子,但找不到一个。我正在使用Hadoopv0.20.203。谢谢。皮尤什 最佳答案 用于输出conf.setOutputFormat(SequenceFileOutputFormat.class);SequenceFileOutputFormat.setOutputCompressionType(conf,C