草庐IT

Tasktracker

全部标签

java - Hadoop 的 TaskTracker 是否为每个任务生成一个新的 JVM?

根据TaskTrackerHadoopWikipage,TaskTracker生成一个新的JVM来完成它正在跟踪的实际工作。然而,页面中有一个拼写错误,不清楚TaskTracker是否为它正在跟踪的所有任务生成一个JVM,或者TaskTracker是否为每个任务生成一个JVM它正在跟踪。我问的原因是因为我很好奇使用静态变量来保存作业级变量是否比简单地在map函数中实例化变量有任何好处。 最佳答案 它为每个任务生成一个JVM。您可以通过设置此配置参数来重用jvms:mapred.job.reuse.jvm.num.tasks,但这只是

hadoop - 如何通过Java代码知道TaskTracker是否在运行?

我正在尝试检查任务跟踪器是否正在服务器上运行。如何使用Java代码进行检查?我不需要命令行解决方案。是否有任何JavaAPI可以检查tasktracker的状态? 最佳答案 一种解决方案是为JMX指标JSON转储URL调用服务的HTTP端点。您可以使用所选语言的任何HTTP客户端库来执行此操作。您提到了TaskTracker,所以听起来您正在运行Hadoop1。这是指定HTTP端点的配置属性:mapred.task.tracker.http.address0.0.0.0:50060Thetasktrackerhttpserverad

hadoop - 1个Tasktracker能否运行多个JVM

1个Tasktracker可以运行多个JVM吗?场景如下:假设有2个文件(A和B)和2个数据节点(D1和D2)。当您加载A时,假设它在D1和D2上拆分为A1和A2当您加载B时,假设它在D1和D2上拆分为B1和B2。出于某种原因让我们假设D1正忙于其他一些任务并且D2可用并且有几个作业已提交,一个使用文件A,另一个使用文件B。现在D2可用并且具有blockA2和B2。JobTracker会在D2上提交代码给TaskTracker,同时运行A2和B2的任务还是它会先运行A2并在完成后运行B2吗?如果是这样,是否有可能并行运行这两个任务,这意味着1个TaskTracker和2个jvm,或者它

hadoop - Tasktracker如何获取必要的数据

我有数据科学背景,所以我使用Hadoop的目标是将大量数据存储在HDFS中。并使用集群对这些数据集的一部分执行一些(并行的)分析(例如一些机器学习算法)。更具体一点,考虑以下情况:对于存储在HDFS中的一些大型数据集,我想对这个数据集的100个随机样本运行一个简单的算法,然后组合这些结果。根据我对这个概念的理解,要实现这一点,我可以写一个Map告诉Tasktrackers的函数在我的集群节点上对部分数据执行分析。此外,我应该写一个Reduce函数来“合并”结果。现在是技术方面;据我了解,我集群中的每台机器都包含一个DataNode和一个TaskTracker.我想象一个TaskTrac

hadoop - 如何设置集群中每个节点的 tasktracker 数量?

我看到我们可以设置每个tasktracker的map/reduce任务数量,但我如何设置集群中每个节点的tasktracker数量?如何关闭安全性以便我可以在每个节点上运行多个tasktracker?在hdfs-site.xml中将dfs.permissions设置为false就足够了吗?阿伦 最佳答案 为什么需要多个任务跟踪器?您可以根据您在tasktracker中设置的槽数运行多个作业。JobTracker与tasktracker对话以查找它在服务器上是否有任何空闲插槽(从数据所在的同一节点开始,如果没有则在其他地方)如果您有多

bin/hadoop tasktracker 命令中的 Hadoop/cygwin 失败

我正在关注http://ebiquity.umbc.edu/Tutorials/Hadoop/00%20-%20Intro.html通过执行在第一个窗口中启动namenodecdhadoop-0.19.1bin/hadoop名称节点通过执行在第二个窗口中启动辅助名称节点cdhadoop-0.19.1bin/hadoopsecondarynamenode通过执行启Action业跟踪器的第三个窗口cdhadoop-0.19.1bin/hadoopjobtracker通过执行启动数据节点第四个窗口cdhadoop-0.19.1bin/hadoop数据节点通过执行启动任务跟踪器的第五个窗口cd

hadoop - 尝试将文件存储在 hadoop 分布式缓存中时出现 FileNotFound 异常

我尝试将本地文件存储在分布式缓存中。该文件存在,但我得到一个文件未找到异常代码片段:DistributedCache.addCacheFile(newURI("file://"+fileName),conf);RunningJobjob=JobClient.runJob(conf);异常(exception):Errorinitializingattempt_201310150245_0066_m_000021_0:java.io.FileNotFoundException:File/Workflow/datadoesnotexistatorg.apache.hadoop.fs.Raw

linux - Hadoop 集群中 tasktracker 上的 UnknownHostException

我已经按照教程说明设置了一个伪分布式Hadoop集群(jobtracker、tasktracker和namenode都在同一个盒子上)并且运行良好。我现在正尝试将第二个节点作为另一个tasktracker添加到该集群。当我检查节点2上的日志时,除了tasktracker之外,所有日志看起来都很好。我收到下面列出的错误消息的无限循环。任务跟踪器似乎正在尝试使用主机名SSP-SANDBOX-1.mysite.com而不是IP地址。该主机名不在/etc/hosts中,所以我猜这就是问题所在。我没有root访问权限,无法将其添加到/etc/hosts。是否有任何我可以更改的属性或配置,以便它停

hadoop - 运行 jps 命令不显示 NameNode 或 Tasktracker ID,虽然它在我使用 start.sh 命令时启动

jps命令应该显示IDJPSNameNodeTaskTrackerJobTracker但我只获得了JPS及其ID。其余部分工作正常。4801Jps为方便起见,我尝试发布屏幕截图,但由于我没有10分或类似的积分,所以不允许。如果有其他方法,如果您需要查看屏幕截图来帮助我解决问题,请告诉我。此致。 最佳答案 如果您已经使用sudo启动了hadoop服务,那么您需要使用sudo权限运行JPS。$sudojps 关于hadoop-运行jps命令不显示NameNode或TasktrackerID,

hadoop - MapReduce 中间数据输出位置

您刚刚执行了一个MapReduce作业。从Mapper的map方法发出后,中间数据写入到哪里?A.中间数据通过网络从Mapper流式传输到Reduce,并且永远不会写入磁盘。B.进入运行Mapper的TaskTracker节点上的内存缓冲区,溢出并写入HDFS。C.进入内存缓冲区,溢出到运行Mapper的TaskTracker节点的本地文件系统。D.进入内存缓冲区,溢出到运行Reducer的TaskTracker节点的本地文件系统(HDFS之外)E.进入运行Reducer的TaskTracker节点上的内存缓冲区,溢出并写入HDFS。 最佳答案