mapReduce

hadoop - 如何使用 AVRO org.apache.avro.mapreduce 接口(interface)进行编程？

我所有的程序都是用hadoop的新MR1接口(interface)(org.apache.hadoop.mapreduce)编写的，所以我也想使用avro的新org.apache.avro.mapreduce。但这对我不起作用。该程序接受avro数据的输入并输出相同的数据。我的程序背后的主要思想是根据avro包装的键/值对hadoop的Mapper和Reducer进行子类化。这是我的工作驱动程序的一部分:AvroJob.setInputKeySchema(job,NetflowRecord.getClassSchema());AvroJob.setOutputKeySchema(job

bash - 如果目录不存在，使用 bash 在 HDFS 中创建目录

我想测试一个目录是否存在于Hadoop分布式文件系统(HDFS)中。如果目录不存在，我想创建该目录，否则不执行任何操作。当我修改http://jugnu-life.blogspot.com/2012/10/hadoop-fs-test-example.html处的代码时:#!/bin/bashdirectory=/raw/tool/ifhadoopfs-test–d$directory;thenecho"Directoryexists"elsehadoopfs-mkdir$directoryecho"Creatingdirectory"fi我得到错误:-test:Toomanyargu

bash HDFS section hadoop directory mapreduce

java - 如何使用 hadoop 2.x 并行运行 MapReduce 任务？

我希望我的map和reduce任务并行运行。然而，尽管尝试了所有的技巧，它们仍然按顺序运行。我读自HowtosettheprecisemaxnumberofconcurrentlyrunningtaskspernodeinHadoop2.4.0onElasticMapReduce，使用以下公式，可以设置并行运行的任务数。min(yarn.nodemanager.resource.memory-mb/mapreduce.[map|reduce].memory.mb,yarn.nodemanager.resource.cpu-vcores/mapreduce.[map|reduce].cp

MapReduce hadoop gt lt property java bigdata cloudera-cdh

java - 如何对 Hadoop 集群进行性能分析

有谁知道如何对Hadoop集群中运行的所有java代码进行性能分析？我会用一个简单的例子来解释。如果我们做一个本地java开发，我们可以运行Yourkit来测量每个类的每个方法占用的CPU百分比。我们可以看到类A调用了方法X，这占用了整个应用程序90%的执行时间，然后修复了代码中的低效问题。但是如果我们正在做一个mapreduce作业并在集群中运行它，我也想看看是什么东西是缓慢的:我们的map/reduce代码，或者框架本身。所以，我想要一个服务来获取有关每个类/方法调用的信息及其执行时间百分比，将其收集到HDFS中的某处，然后分析方法调用树和CPU消耗。问题:有人知道这样的解决方案是

性能分析 Hadoop section 中运 noreferrer java mapreduce apache-spark profiling

multithreading - Mapreduce作业是否使用多线程

我很好奇mapreduce作业是否在单台机器上使用多线程。比如我的hadoop集群有10台服务器，默认情况下，如果输入文件足够大，就会有10个mappers。单个映射器是否在单台机器上使用多线程？最佳答案 Isthesinglemapperusingmultiplethreadinginasinglemachine?是的。Mapreduce作业可以使用多线程映射器(多线程或线程池运行map方法)。我已经为MaponlyHbasejobs使用了更好的CPU利用率...MultiThreadedMapper非常适合如果您的操作是高度C

多线 multithreading LongWritable mapreduce hadoop

java - 在 Hadoop 中并行化 Ruby reducer？

Ruby中的一个简单的wordcountreducer如下所示:#!/usr/bin/envrubywordcount=Hash.newSTDIN.each_linedo|line|keyval=line.split("|")wordcount[keyval[0]]=wordcount[keyval[0]].to_i+keyval[1].to_iendwordcount.each_pairdo|word,count|puts"#{word}|#{count}"end它在STDIN中获取所有映射器的中间值。不是来自特定的key。所以实际上只有一个缩减器(而不是每个单词或每组单词的缩减器)

reducer Hadoop section 流式 key java ruby mapreduce

hadoop - 使用 MultipleOutputs 在 MapReduce 中写入 HBase

我目前有一个MapReduce作业，它使用MultipleOutputs将数据发送到多个HDFS位置。完成后，我使用HBase客户端调用(在MR之外)将一些相同的元素添加到几个HBase表中。使用TableOutputFormat将HBase输出添加为额外的MultipleOutputs会很好。这样，我将分发我的HBase处理。问题是，我无法让它工作。有没有人在MultipleOutputs中使用过TableOutputFormat...？有多个HBase输出？基本上，我正在设置我的收集器，就像这样....OutputcollectorhbaseCollector1=multipleO

MultipleOutputs MapReduce cubeBuilderETLJob code ImmutableBytesWritable hadoop hbase

configuration - 为什么 Hadoop 中正确的 reduce 数量是 0.95 或 1.75？

hadoop文档指出:Therightnumberofreducesseemstobe0.95or1.75multipliedby(*mapred.tasktracker.reduce.tasks.maximum).With0.95allofthereducescanlaunchimmediatelyandstarttransferringmapoutputsasthemapsfinish.With1.75thefasternodeswillfinishtheirfirstroundofreducesandlaunchasecondwaveofreducesdoingamuchbett

configuration Hadoop section reducer reduces mapreduce

java - 所有 map task 的 Hadoop 缓存文件

我的map函数必须为每个输入读取一个文件。那个文件根本没有改变，它只是为了阅读。我认为分布式缓存可能对我有很大帮助，但我找不到使用它的方法。我认为我需要覆盖的publicvoidconfigure(JobConfconf)函数已被弃用。好吧，JobConf肯定被弃用了。所有DistributedCache教程都使用已弃用的方式。我能做什么？我可以覆盖另一个配置功能吗？这些是我的map函数的第一行:Configurationconf=newConfiguration();//loadtheMFileFileSystemfs=FileSystem.get(conf);PathinFile=

Hadoop java section FileSystem code file-io mapreduce distributed-cache

hadoop - 如何在容器格式的 Hadoop 中使用 Snappy

我必须使用Snappy来压缩mapo/p和map-reduceo/p。此外，这应该是可拆分的。正如我在网上学习的那样，要使Snappy编写可拆分的o/p，我们必须在类似容器的格式中使用它。你能建议如何去做吗？我试着在网上找一些例子，但找不到一个。我正在使用Hadoopv0.20.203。谢谢。皮尤什最佳答案用于输出conf.setOutputFormat(SequenceFileOutputFormat.class);SequenceFileOutputFormat.setOutputCompressionType(conf,C

何在容器 section conf SequenceFileOutputFormat hadoop compression mapreduce

117 118 119120121 122 123