作业组

performance - 为什么 hadoop map 任务上的更多内存会使 mapreduce 作业变慢？

我想问一下。为什么如果我在mapreduce.map/reduce.memory.mb和mapreduce.map/reduce.java.opts中将mapred-site.xml配置为比默认值更大的值会使我的工作变慢？但是如果我将它配置得太低，那么我会任务失败。而且我认为在这种情况下，我在hadoop上的内存配置是没有必要的......你能给我解释一下吗？最佳答案当您增加mapreduce.map/reduce.memory.mb和mapreduce.map/reduce.java.opts的值时，您的环境中可能会发生什么>

performance mapreduce section 容器 hadoop memory hadoop-yarn

hadoop - 在 Hadoop 作业中找不到类

我有一个mapreduce作业，它从DocumentDB获取输入。我在源代码的lib目录下添加了jar文件，并在运行作业时使用了-libjars。但我仍然收到jar文件中某个类的类未找到错误。这是我的驱动程序的一部分publicclassMapReduceDriverextendsConfiguredimplementsTool{publicstaticvoidmain(String[]args)throwsException{intres=ToolRunner.run(newConfiguration(),newMapReduceDriver(),args);System.exit(

hadoop java Configuration mapreduce azure-cosmosdb

java - Hadoop 纱作业 : Wrong FS

我用一个vagrantbox安装了一个cloudera集群。启动以下示例时出现错误:hadoopjar/usr/lib/hadoop-mapreduce/hadoop-mapreduce-examples.jargrepinputoutput23'dfs[a-z.]+'我去/var/log/hadoop-yarn查看了日志。有几个日志文件，在yarn-yarn-nodemanager-cdh-master.log中，有如下stackstrace:2015-06-1711:42:42,398INFOSecurityLogger.org.apache.hadoop.ipc.Server:A

Hadoop Wrong apache yarn java cloudera-cdh

shell - 使用 shell 脚本的 Cron 作业

我正在尝试每2分钟使用cronjob运行一个shell脚本。我打开我的终端然后输入crontab-e一旦我执行了这个命令，我就在写我的命令*/2****/home/test/test/test.sh但是我得到了一个错误E486:Patternnotfound:2****请帮忙，因为我是新手，我不知道为什么会这样。如果你给我任何关于hwo的链接和代码来执行cronjob，那将会有所帮助。最佳答案如评论中所述，出现以下错误:E486:Patternnotfound:2****是因为你编辑不当造成的。也就是说，您正确地输入了cront

shell Cron blockquote section code hadoop crontab

scala - 在 Spark 作业服务器中运行 Mllib

我正在练习使用spark网站提供的在线资源开发示例模型。我设法创建了模型并使用Spark-Shell为示例数据运行它，但是如何在生产环境中实际运行模型？是通过Spark作业服务器吗？importorg.apache.spark.mllib.classification.SVMWithSGDimportorg.apache.spark.mllib.regression.LabeledPointimportorg.apache.spark.mllib.linalg.Vectorsvaldata=sc.textFile("hdfs://mycluster/user/Cancer.csv")v

中运 scala spark apache hadoop apache-spark-mllib spark-jobserver bigdata

hadoop - 对于 MapReduce 作业，使用 1 台 4 核机器和使用 4 台 1 核机器一样吗？

我正在GoogleCloud上创建一个集群，他们要求我选择我想使用多少台机器以及每台机器上应该有多少个内核。如果我想运行MapReduce作业，要求8台每台1个内核的机器和要求2台每台4个内核的机器之间有实际区别吗？最佳答案你在标题和正文中的问题是不同的。当在4x1core和1x4core之间进行选择时，后者具有数据局部性的优势-映射器和缩减器之间没有数据传输，所有数据都在同一台机器上。另一个需要考虑的重要因素是RAM的数量。如果您必须在1台16GBRAM的机器和8台2GBRAM的机器之间做出选择，您最好选择第一个选项，因为某些

MapReduce hadoop section 的 stackoverflow google-cloud-platform

java - 尝试从 Java 应用程序运行 mapreduce 作业时捕获异常

我需要从java应用程序调用mapreduce作业。我用ToolRunner.run(newValidation(),pathsMoveToFinal.toArray(newString[pathsMoveToFinal.size()]));如果我不设置conf的mapred.job.jobtracker，它将永远运行。maptask变为100%，然后回到其他百分比。如果我设置mapred.job.jobtracker，它会提示找不到映射器类:java.lang.RuntimeException:java.lang.ClassNotFoundException:utils.DataVa

mapreduce java section Configuration hadoop hdfs

hadoop - oozie 在通过协调器提交作业时模拟了哪个用户

用户模拟/传播在oozie中如何工作？最佳答案检查UserPropogation来自Oozie文档。它说Whensubmittingaworkflowjob,theconfigurationmustcontainauser.nameproperty当您没有明确添加此属性时，它会分配给提交作业的用户。关于hadoop-oozie在通过协调器提交作业时模拟了哪个用户，我们在StackOverflow上找到一个类似的问题： https://stackoverf

协调器 hadoop section stackoverflow oozie oozie-coordinator

java - 为什么我们需要在 MapReduce 作业中显式设置 OutputKey/InputKey 类？

当Map和Reduce类必须尊重地扩展Mapper和Reducer类时，为什么我们需要在MapReduce作业中显式设置OutputKey/InputKey类，这需要添加？一个例子:工作session:job.setOutputKeyClass(NullWritable.class);job.setOutputValueClass(Text.class);job.setOutputFormatClass(TextOutputFormat.class);reducer:publicstaticclassComputeReducerextendsReducer{如果我们已经显式设置redu

MapReduce OutputKey section code Text java hadoop

python - MapReduce 作业(用 python 编写)在 EMR 上运行缓慢

我正在尝试使用python的MRJob包编写MapReduce作业。该作业处理存储在S3中的约36,000个文件。每个文件大约2MB。当我在本地运行作业(将S3存储桶下载到我的计算机)时，运行大约需要1小时。但是，当我尝试在EMR上运行它时，它需要更长的时间(我在8小时时停止了它，它在映射器中完成了10%)。我在下面附上了我的mapper_init和mapper的代码。有谁知道什么会导致这样的问题？有谁知道如何修理它？我还应该注意，当我将输入限制为100个文件的样本时，它工作正常。defmapper_init(self):"""Setclassvariablesthatwillbeus

python 缓慢 line 34 self hadoop mapreduce emr mrjob

34 35 363738 39 40