草庐IT

mapred_tmp

全部标签

java - 无法在 Oozie java 操作中设置 mapred.job.queue.name

我有一个运行紧迫作业的应用程序。我正在尝试将Oozie配置为使用Java操作运行此作业。我的操作如下,${jobTracker}${nameNode}mapred.job.queue.namelaunchercom.test.Main-Dmapred.output.compress=false-Dmapred.textoutputformat.separator=,-Dcrunch.disable.output.counters=trueActionfailed,errormessage[${wf:errorMessage(wf:lastErrorNode())}]但每次我运行Oozi

hadoop - 我可以在不设置 mapred.reduce.tasks=1 的情况下在 map reduce 程序中找到最小值、最大值或平均值吗

我试图了解如何使用mapreduce找到一个非常大的文件的最小值、最大值和平均值。将reduce任务数设置为1是一个显而易见的解决方案,但对于非常大的文件来说并不是最佳选择。我也在考虑编写一个链式MR作业,但最终,你最终在最终作业中使用了一个reducer。有人可以阐明一些其他方法吗?谢谢 最佳答案 无论您的输入数据集有多大,我在这里使用1个reducer都没有发现任何问题。为此,您应该使用组合器功能,该功能应返回其本地Max、本地Min、本地TotalSum和Count并传递给单个reducer。这样,到达reducer的数据量非

hadoop - hadoop.tmp.dir 到底应该设置在哪里? core-site.xml 还是 hdfs-site.xml?

我问的是Hadoop2.x系列。互联网上对此有相互矛盾的建议。喜欢这个case他要求在core-site.xml和这个SOanswer中指定它其中提到hadoop.tmp.dir设置在hdfs-site.xml中。应该放在哪个位置? 最佳答案 hadoop.tmp.dir(Abaseforothertemporarydirectories)属性,需要在core-site.xml中设置,就像exportinLinux例如:dfs.namenode.name.dirfile://${hadoop.tmp.dir}/dfs/name您可以

Hadoop 1.0.3 mapred.map.tasks 属性不工作

我正在使用hadoop1.0.3运行mapreduce作业。我有一个3节点集群设置。问题是我在/conf/mapred-site.xml中将属性mapred.map.tasks设置为20,但是当我运行该作业并使用以下网页访问集群信息时,hadoop仅显示6个maptask:50030。我已经在集群中的所有节点上编辑了上述配置文件。请帮忙。问候,莫辛 最佳答案 正如miguno所说,Hadoop只将mapred.map.tasks的值视为提示。也就是说,当我在使用MapReduce时,我能够通过指定最大计数来增加映射计数。这可能不适合

hadoop - MapR 架构与 Cloudera 架构

我熟悉Cloudera的基础设施或架构:Master节点包括NameNode、SecondaryNameNode、JobTracker、HMaster。从节点包括DataNode、TaskTracker、HRegionServer。Master节点应该都在自己的节点上(除非它是一个小集群,而不是SecondaryNameNode,JobTracker和HMaster可以组合,如果它是一个非常小的集群甚至是NameNode)。从节点应始终位于同一节点上。从节点越多越好。SecondaryNameNode用词不当,除非您为高可用性启用它。MapR是否维护此设置?它有何相似之处和不同之处?

hadoop - 为什么我们在 YARN 中配置 mapred.job.tracker?

我所知道的是引入了YARN,它取代了JobTracker和TaskTracker。我看过一些Hadoop2.6.0/2.7.0安装教程,他们将mapreduce.framework.name配置为yarn和mapred.job.tracker属性作为本地或主机:端口。mapred.job.tracker属性的描述是"ThehostandportthattheMapReducejobtrackerrunsat.If"local",thenjobsarerunin-processasasinglemapandreducetask."我的疑问是如果我们使用YARN为什么要配置它,我的意思是J

hadoop - mapred-site.xml 中 mapreduce.framework.name 的经典、本地有什么区别?

官方对该参数的描述如下:TheruntimeframeworkforexecutingMapReducejobs.Canbeoneoflocal,classicoryarn.我知道值“yarn”用于MRv2,它会将mapreduce作业提交给resourcemanager。但是本地和经典之间有什么区别?哪个对应MRv1?非常感谢! 最佳答案 你是对的,“yarn”代表MRv2。“经典”用于MRv1,“本地”用于MR作业的本地运行。但是为什么需要MRv1?Yarn现在已经结束测试,它比旧的MRv1框架更稳定,而您的MapReduce作

hadoop - 无法设置路径 :\tmp 的权限

Failedtosetpermissionsofpath:\tmp\hadoop-MayPayne\mapred\staging\MayPayne2016979439\.stagingto0700我在执行MapReduce作业时收到此错误,我使用的是hadoop1.0.4,然后我知道这是一个已知问题,我在1.2.0上尝试过此问题,但问题仍然存在。我能知道他们已经解决了这个问题的hadoop版本吗?先谢谢大家 最佳答案 我在Windows7上运行nutch-1.7时遇到了同样的异常。bin/nutchcrawlurls-dircraw

Hadoop 配置 : mapred. * 与 mapreduce.*

我注意到有两组Hadoop配置参数:一组带有mapred.*,另一组带有mapreduce.。我猜这些可能是由于旧API与新API造成的,但如果我没记错的话,这些似乎共存于新API中。我对么?如果是这样,是否有一个通用的声明什么用于mapred.什么用于mapreduce.*? 最佳答案 检查0.20.2的源代码,只有几个mapreduce.*属性,它们围绕配置作业输入/输出格式、mapper/combiner/reducer和partitioner类(它们还向作业客户端发出用户正在使用新API的信号-查看o.a.h.mapredu

hadoop - hadoop hdfs中的/tmp目录是什么?

我有4个数据节点的集群,每个节点上的hdfs结构如下我面临磁盘空间问题,您可以看到来自hdfs的/tmp文件夹占用了更多空间(217GB)。所以我试图调查/tmp文件夹中的数据。我发现了以下临时文件。我访问了这些临时文件夹,每个文件夹都包含一些大小为10gb到20gb的部分文件。我想清除这个/tmp目录。谁能告诉我删除这些tmp文件夹或零件文件的后果。它会影响我的集群吗? 最佳答案 HDFS/tmp目录主要用作mapreduce操作时的临时存储。Mapreduce工件、中间数据等将保存在此目录下。当mapreduce作业执行完成时,