草庐IT

task_completion_source

全部标签

hadoop - mapreduce.task.io.sort.mb 的最大值是多少?

当我设置mapreduce.task.io.sort.mb=100000时。出现以下异常。java.lang.Exception:java.io.IOException:Invalid"mapreduce.task.io.sort.mb":100000mapreduce.task.io.sort.mb的最大值是多少? 最佳答案 我知道这个问题很老了,但是对于那些提出相同问题的人,您可以查看有关此值被上限的一些错误http://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.1.3/bk_re

hadoop - pig 0.13 错误 2998 : Unhandled internal error. org/apache/hadoop/mapreduce/task/JobContextImpl

刚刚安装了Pig0.13,我正在尝试将它与Hadoop1.1.2一起使用。(Pig文档指出Pig0.13与Hadoop1.1.2兼容)。根据Pig安装说明,我设置了$PIG_CLASSPATH指向定义了core-site.xml、hdfs-site.xml和mapred-site.xml的/etc/hadoop。Hadoop集群功能正常,可以很好地处理非Pig作业。根据下面的错误描述,我了解到Pig无法找到它正在寻找的JobContextImpl类。根据Hadoop1.1.2API文档,我不认为“任务”是“mapreduce”包的子包。我尝试将hadoop-core-1.1.2.jar

map - 如何限制并发运行的 map task ?

我的hadoop版本是1.0.2。现在我最多同时运行10个maptask。我发现了2个与这个问题相关的变量。a)mapred.job.map.capacity但在我的hadoop版本中,这个参数似乎被放弃了。b)mapred.jobtracker.taskScheduler.maxRunningTasksPerJob(http://grepcode.com/file/repo1.maven.org/maven2/com.ning/metrics.collector/1.0.2/mapred-default.xml)我像下面这样设置这个变量:Configurationconf=newCo

maven - 为什么 Maven 试图将我的代码编译为 -source 1.3?

我在Ubuntu12.04中收到此错误mvn-epackage:[ERROR]Failedtoexecutegoalorg.apache.maven.plugins:maven-compiler-plugin:2.0.2:compile(default-compile)onprojectHadoopSkeleton:Compilationfailure:Compilationfailure:[ERROR]/home/jesvin/dev/hadoop/HadoopMahoutSkeleton-master/src/main/java/HadoopSkeleton/App.java:[2

implementation - Hadoop MR source : HDFS vs HBase. 各有什么好处?

如果我正确理解Hadoop生态系统,我可以运行我的MapReduce作业,从HDFS或HBase获取数据。假设之前的假设是正确的,我为什么要选择一个而不是另一个?使用HBase作为MR源在性能、可靠性、成本或易用性方面是否有优势?我能找到的最好的引用是这句话,“HBase是当您需要对非常大的数据集进行实时读/写随机访问时使用的Hadoop应用程序。”-TomWhite(2009)Hadoop:权威指南,第1版 最佳答案 在HDFS上直接使用HadoopMap/Reduce,您的输入和输出通常存储为平面文本文件或HadoopSeque

hadoop - 为什么每次都需要source bash_profile

我已经安装了Hadoop,每次我想运行它时,首先我必须这样做:source~/.bash_profile否则它不会识别命令hadoop这是为什么?我在OSX10.8上 最佳答案 现在我们已经缩小了问题的范围:在命令行中运行ps-p$$以检查您实际上是否在使用bashshell。意识到您在zsh中,这意味着您应该在.zshrc中编辑您的配置文件。将有问题的行从.bash_profile复制到.zshrc,或者修改您的.zshrc以直接获取您的.bash_profile。更新:执行@TC1在评论中提到的操作,并将特定于shell的代码保

scala - 如何在 Spark 中获取 map task 的 ID?

有没有办法在Spark中获取maptask的ID?例如,如果每个map任务调用一个用户定义函数,我能否从该用户定义函数中获取该map任务的ID? 最佳答案 我不确定您所说的maptaskID是什么意思,但您可以使用TaskContext访问任务信息:importorg.apache.spark.TaskContextsc.parallelize(Seq[Int](),4).mapPartitions(_=>{valctx=TaskContext.getvalstageId=ctx.stageIdvalpartId=ctx.parti

Hadoop Datanode、namenode、secondary-namenode、job-tracker 和 task-tracker

我是hadoop的新手,所以我有一些疑问。如果主节点发生故障,hadoop集群会发生什么?我们能否在没有任何损失的情况下恢复该节点?是否可以保留一个辅助主节点在当前主节点发生故障时自动切换为主节点?我们有namenode(Secondarynamenode)的备份,所以我们可以在Secondarynamenode发生故障时从中恢复namenode。这样,当datanode发生故障时,我们如何恢复datanode中的数据呢?Secondarynamenode只是namenode的备份而不是datenode,对吧?如果一个节点在作业完成之前发生故障,那么作业跟踪器中有待处理的作业,该作业是

hadoop - 如何修复 "Task attempt_201104251139_0295_r_000006_0 failed to report status for 600 seconds."

我编写了一个mapreduce作业来从数据集中提取一些信息。该数据集是用户对电影的评价。用户数约250K,电影数约300k。map的输出是*>and*>.在reducer中,我将处理这些对。但是当我运行作业时,mapper按预期完成,但reducer总是提示Taskattempt_*failedtoreportstatusfor600seconds.我知道这是由于无法更新状态,所以我添加了对context.progress()的调用在我的代码中是这样的:intcount=0;while(values.hasNext()){if(count++%100==0){context.progr

java - 与 Resin Professional 相比,Quercus PHP 在 Resin Open Source 上的速度有多快(慢)?

Caucho的聪明人很快指出Quercus比直接mod_php(没有APC)快3-5倍。但是深入研究文档,您会发现PHP到字节码的编译仅在ResinPro(699美元)中可用。我想知道的是,ResinOpenSource执行PHP代码的速度有多快(即多慢)?是的,我知道我可以测试它,这取决于应用程序,它取决于环境,等等等等。但我只需要以前做过的任何人的一个轶事数据点,无论它是否具有统计显着性......都没关系! 最佳答案 Quercus独立于Resin(开源或商业),并且它本身是开源的。我们在Jetty和Tomcat上运行Quer