草庐IT

mapreduce_shuffle

全部标签

hadoop - 如何为 YARN MapReduce 作业处理容器故障?

YARN如何处理软件/硬件故障?具体来说,如果容器出现故障/崩溃,会发生什么情况? 最佳答案 容器和任务故障由节点管理器处理。当容器发生故障或死亡时,节点管理器会检测到故障事件并启动一个新容器来替换发生故障的容器并在新容器中重新启动任务执行。如果application-master发生故障,资源管理器会检测到故障并使用新容器启动application-master的新实例。查找详情here 关于hadoop-如何为YARNMapReduce作业处理容器故障?,我们在StackOverfl

hadoop - 如何为 HDFS 单独指定一组节点,为 MapReduce 作业指定其他节点?

在部署hadoop时,我希望一些节点集运行HDFS服务器但不运行任何MapReduce任务。比如有两个节点A和B运行HDFS。我想排除节点A运行任何map/reduce任务。我怎样才能实现它?谢谢 最佳答案 如果您不想在特定节点或一组节点中运行任何MapReduce作业,如果nodemanager守护进程已经在运行,那么停止它们将是最简单的选择。在不应尝试MR任务的节点上运行此命令。yarn-daemon.shstopnodemanager或者使用yarn-site.xml中的属性yarn.resourcemanager.nodes

java - MapReduce问题

我正在尝试实现一个Mapreduce程序来对2个文件进行字数统计,然后比较这些文件中的字数统计,看看哪些是最常见的词...我注意到在对文件1进行wordcount之后,结果进入目录“/data/output1/”,里面有3个文件。-“_成功”-“_日志”-“part-r-00000”“part-r-00000”是包含file1wordcount结果的文件。如果文件名是在我事先不知道文件名的情况下实时生成的,我该如何让我的程序读取该特定文件?另外,对于(键,值)对,我在“值”上添加了一个标识符,以便能够识别该词属于哪个文件并计数。publicvoidmap(Textkey,Textval

hadoop - Map only 任务中会出现 Shuffle 和 sort 吗?

shuffle和sort阶段是在map任务结束之前进行,还是在map任务生成输出之后进行,以便不再回头查看map任务。这是一个让我感到困惑的“仅限maptask”案例。如果在Maponly任务中没有Shuffle和sort,谁能解释一下数据是如何写入最终输出文件的。 最佳答案 当你有一个map-only任务时,根本没有混洗,这意味着映射器会将最终输出直接写入HDFS。另一方面,当你有一个完整的Map-Reduce程序时,带有映射器和缩减器,是的,洗牌可以在缩减阶段开始之前开始。引用thisveryniceanswer所以:First

java - Hadoop 选项没有任何效果(mapreduce.input.lineinputformat.linespermap、mapred.max.map.failures.percent)

我正在尝试实现一个MapReduce作业,其中每个映射器将占用150行文本文件,并且所有映射器将同时运行;此外,无论有多少maptask失败,它都不应该失败。这里是配置部分:JobConfconf=newJobConf(Main.class);conf.setJobName("Mymapreduce");conf.set("mapreduce.input.lineinputformat.linespermap","150");conf.set("mapred.max.map.failures.percent","100");conf.setInputFormat(NLineInputF

java - hadoop MapReduce : find max key value pair from output of mapper

这听起来像是一项简单的工作,但使用MapReduce似乎并不那么简单。我有N个文件,其中每个文件只有一行文本。我希望Mapper输出键值对,如,其中'score'是根据文本行计算的整数。作为旁注,我正在使用以下代码片段来执行此操作(希望它是正确的)。FileSplitfileSplit=(FileSplit)reporter.getInputSplit();StringfileName=fileSplit.getPath().getName();假设映射器正确地完成了它的工作,它应该输出N个键值对。现在的问题是我应该如何对Reducer进行编程以输出具有最大“分数”的一对键值对?据我所

hadoop - Hive 生成​​的 MapReduce 代码

ApacheHiveQL在哪里存储它生成的Map/Reduce代码? 最佳答案 我相信Hive并没有真正生成Map/Reduce代码,就像您可以从Java中获得的那样,因为它是由Hive查询规划器解释的。如果您想了解Hive查询生成的操作类型,可以在查询前加上EXPLAIN,您将看到抽象语法树、依赖关系图和计划每个阶段。有关EXPLAIN的更多信息here.如果您真的想查看一些Map/Reduce作业,您可以尝试YSmart这会将您的HiveQL语句转换为有效的JavaMap/Reduce代码。我个人没有使用过它,但我知道有人用过它

hadoop - 带有 mapreduce.Job 的 SetNumMapTask

如何使用org.apache.hadoop.mapreduce.Job设置映射任务的数量?该功能似乎不存在...但它存在于org.apacache.hadoop.mapred.JobConf...谢谢! 最佳答案 据我所知,setNumMapTasks不再受支持。这只是对框架的提示(即使在旧API中也是如此),并不保证您只会获得指定数量的map。map创建实际上由您在工作中使用的InputFormat控制。您可以根据需要调整以下属性:ma​​pred.min.split.sizema​​pred.max.split.size由于您处

sorting - Hadoop MapReduce Streaming 对多列进行排序

我有这样的mapreduce输入:key1\t4.1\tmore...key1\t10.3\tmore...key2\t6.9\tmore...key2\t3\tmore...我想按第一列排序,然后按第二列排序(反向数字)。有没有办法实现这个StreamingMapReduce?我目前的尝试是这样的:hadoopjarhadoop-streaming-1.2.1.jar-Dnum.key.fields.for.partition=1-Dmapred.text.key.comparator.options='-k1,2rn'-Dmapred.output.key.comparator.c

java - java 中的 mapreduce - gzip 输入文件

我正在使用java,我正在尝试编写一个mapreduce,它将接收一个包含多个gz的文件夹作为输入文件。我一直在寻找所有的教程,但我找到的所有教程都说明了如何处理一个简单的文本文件,但没有找到任何可以解决我的问题的方法。我在我的工作场所四处打听,但只得到了对scala的引用,我对此并不熟悉。如有任何帮助,我们将不胜感激。 最佳答案 Hadoop检查文件扩展名以检测压缩文件。Hadoop支持的压缩类型有:gzip、bzip2和LZO。您不需要采取任何额外的操作来使用这些类型的压缩来提取文件;Hadoop会为您处理。因此,您只需像编写文