mapReduce

hadoop - MapReduce 在哪些类型的用例中优于 Spark？

我刚刚参加了一个关于Spark的入门类(class)，并询问演讲者Spark是否可以完全替代MapReduce，并被告知Spark可以在任何用例中替代MapReduce，但在某些特定用例中，MapReduce实际上更快比Spark。MapReduce可以比Spark更快解决的用例有哪些特点？最佳答案请原谅我quotingmyselffromQuora，但是:对于MapReduce设计的数据并行、一次性、类似ETL的作业，MapReduce比Spark等价物更轻量级Spark相当成熟，YARN现在也是如此，但Spark-on-YA

优于 MapReduce Spark section hadoop apache-spark

hadoop - HFile 创建 - 添加了一个在词法上不大于前一个键的键

我有一个创建Put文件的程序-Putput=newPut(Bytes.add(someKey));put.add(COLUMN_FAMILY,colName,timeStamp,dataByteArr);returnput;我正在尝试使用以下代码为这些Put创建Hfile。FileInputFormat.setInputPaths(job,newPath(baseDir+"/"+childInputDir+"*"));job.setInputFormatClass(TolerantSequenceFileInputFormat.class);job.setMapperClass(Key

法上 hadoop HFileOutputFormat section mapreduce hbase

hadoop - 在 mapreduce 作业中，数据何时写入磁盘？

我知道每个mapper将其中间数据写入磁盘，然后reducer将其输出转储到磁盘。在mapreduce作业期间是否还有其他时间数据会溢出到磁盘？我正在寻找任何可能的时间，即使它不是一份典型的工作。最佳答案 MR从HDFS获取输入，每个maptask处理它，保存在内存中，如果超过默认的100MB(io.sort.mb)，然后它拆分到磁盘。然后reducer将结果输出到HDFS而不是磁盘。对于更多细节检查链接，https://www.inkling.com/read/hadoop-definitive-guide-tom-white-

mapreduce 何时 section hadoop-definitive-guide-tom-white https hadoop

hadoop - 是否可以在驱动程序中向 conf 对象添加属性？

我的MR工作是这样获得的:Jobjob=newJob(conf,"helloWorld");在conf上设置的任何值都可以跨节点使用。但我不确定以下是否有效:在MAP中conf.set("hello","world");在驱动程序中if(job.waitForCompletion(true)){System.out.println(conf.get("hello"));}在map/reduce阶段对conf所做的修改是否会在驱动程序中可见？最佳答案当您提交作业时，您还提供了配置，如您所说:Jobjob=newJob(conf,"

驱动 hadoop code section strong mapreduce

hadoop - java.io.IOException : Cannot obtain block length for LocatedBlock 异常

我正在使用HDP2.1。对于集群。我遇到了以下异常，因此MapReduce作业失败了。实际上，我们经常使用来自Flume的数据创建表，这是ver。1.4.我检查了mapper试图读取的数据文件，但我找不到任何内容。2014-11-2800:08:28,696WARN[main]org.apache.hadoop.metrics2.impl.MetricsConfig:Cannotlocateconfiguration:triedhadoop-metrics2-maptask.properties,hadoop-metrics2.properties2014-11-2800:08:28,

LocatedBlock IOException hadoop apache org mapreduce flume

hadoop - 当映射器输出被大多数排序时最小化随机播放

我有一个map-reduce过程，其中映射器从一个按键排序的文件中获取输入。例如:1...2...2...3...3...3...4...然后它得到转换，99.9%的键彼此保持相同顺序，其余99%接近。因此，以下可能是对上述数据运行maptask的输出:a...c...c...d...e...d...e...因此，如果您可以确保reducer接受一系列输入并将该reducer放在大多数输入已经位于的同一节点中，则洗牌将需要非常少的数据传输。例如，假设我对数据进行了分区，以便a-d由一个reducer处理，而e-g由下一个reducer处理。然后，如果a-d可以在处理1-4映射的同一节点

射器最小化 section preservesPartitioning hadoop mapreduce apache-spark

hadoop - reducer 被调用了多少次

我只想知道reducer在mapreduce程序中被调用了多少次。我所知道的是映射器的数量等于输入拆分的数量，即对于每个输入拆分1个映射器运行并且每个映射器的o/p被传递给reducer，所以它被一个一个地传递或者它得到所有一次处理数据并处理该数据(减少数据)，所以我只想知道reducer的流程或工作。最佳答案 reducer通常为每个唯一键调用一次，但您可以指定一个GrouperComparator(例如，用于二次排序)，然后reducer将为每组键调用一次，由GrouperComparator确定。虽然日志消息似乎暗示在映射器

reducer hadoop 射器 section mapreduce

hadoop - EMR hadoop (MRv2) 集群的最大容量为 80%。如何获得剩余的20%？

我在AWS上使用ElasticMapReduce(Hadoop2.0和YARN)。配置如下:10xg2.2xlargecoreinstanceswith15GBofRAMand8CPUcoresyarn.nodemanager.vmem-check-enabled=falseyarn.scheduler.minimum-allocation-mb=2048yarn.nodemanager.resource.memory-mb=12288mapreduce.map.memory.mb=3072运行作业时，调度程序显示仅分配了81.7%的集群:UsedCapacity:81.7%Absol

大容 hadoop section mapreduce Applications hadoop-yarn emr

斯卡拉 MapReduce : [error] method reduce overrides nothing

我遇到了这个错误，我这样写了我的TableReducer代码:classtreducerextendsTableReducer[Text,IntWritable,ImmutableBytesWritable]{overridedefreduce(key:Text,values:java.lang.Iterable[IntWritable],context:Reducer[Text,IntWritable,ImmutableBytesWritable,Mutation]#Context){vari=0for(v通过这次导入:importorg.apache.hadoop.hbase.HB

斯卡拉斯卡 apache hadoop import scala mapreduce hbase

hadoop - 如何估算 MapReduce 作业时间

我有一个Mapreduce程序，当在1%的数据集上运行时，这是它所花费的时间:JobCountersLaunchedmaptasks=3Launchedreducetasks=45Data-localmaptasks=1Rack-localmaptasks=2Totaltimespentbyallmapsinoccupiedslots(ms)=29338Totaltimespentbyallreducesinoccupiedslots(ms)=200225Totaltimespentbyallmaptasks(ms)=29338Totaltimespentbyallreducetask

估算 MapReduce tasks Total all hadoop

94 95 969798 99 100