草庐IT

作业队

全部标签

java - 如何以编程方式停止 Spark 作业执行

如果我想在异常或特定用例的情况下以编程方式从spark作业内部停止我的Spark应用程序,如何从Java代码实现这一点。我尝试调用JavaSparkContext.close()但作业似乎仍在运行。 最佳答案 您可以使用以下方法取消正在运行的spark作业:cancelJobGroup(StringgroupId)-取消指定组的Activity作业。cancelAllJobs()-取消所有已安排或正在运行的作业。更多详情可以引用APIdoc 关于java-如何以编程方式停止Spark作业

hadoop - 如何为 HDFS 单独指定一组节点,为 MapReduce 作业指定其他节点?

在部署hadoop时,我希望一些节点集运行HDFS服务器但不运行任何MapReduce任务。比如有两个节点A和B运行HDFS。我想排除节点A运行任何map/reduce任务。我怎样才能实现它?谢谢 最佳答案 如果您不想在特定节点或一组节点中运行任何MapReduce作业,如果nodemanager守护进程已经在运行,那么停止它们将是最简单的选择。在不应尝试MR任务的节点上运行此命令。yarn-daemon.shstopnodemanager或者使用yarn-site.xml中的属性yarn.resourcemanager.nodes

java - Hadoop - 作业统计

我使用hadoop在我们的集群上运行map-reduce应用程序。这些工作每天大约需要10个小时才能完成。我想知道每项工作所花费的时间,以及最长工作所花费的时间等等,以便我可以优化这些工作。是否有任何插件或脚本可以执行此操作?谢谢巴拉 最佳答案 看看http://:50030或http://:50030/jobhistory.jsp(在底部。每个作业/任务/任务部分(映射、排序、缩减)都有一个分析。非常方便。您可以编写自己的日志-我只是“wget”所有分析页面,然后通过awk将它们放入粗略的统计数据中。

hadoop - 你如何跟踪 oozie 作业日志?

我通常使用这个命令检查日志:$ooziejob-ooziehttp://localhost:8080/oozie-log14-20090525161321-oozie-joe这将打印所有内容。但是我只想看到最后几行。我如何跟踪oozie作业日志?谢谢 最佳答案 正如Chris上面建议的那样,使用它来打印最后10行$ooziejob-oozieoozie_URL-logjob_ID|tail-n10 关于hadoop-你如何跟踪oozie作业日志?,我们在StackOverflow上找到一

apache - hadoop 作业列表已弃用

我正在使用cloudera单节点vm学习hadoop,我通过了这一行hadoopjob-list我收到警告(不推荐使用此脚本执行mapred命令。而是使用mapred命令。)我知道使用它会很好,但我有点迷路。mapred不是旧版的mapreduce吗?是否弃用了工作(类(class)?)?抱歉无知。列出正在运行的作业的最佳方法是什么?链接或引用将不胜感激。编辑如果语法是hadoopjob[GENERIC_OPTIONS][-submit]|[-status]|[-counter]|[-kill]|[-events]|[-history[all]]|[-list[all]]|[-kill

hadoop - 通过 Jenkins 部署 Oozie 作业

我正在编写Oozie作业,我想将它们部署到hadoop集群。但是,我不想手动执行它们,而是想使用Jenkins为我执行此部署。我在网上搜索过,但没有找到oozie的任何插件....所以如果你在hadoop集群上使用oozie,你能告诉我什么是我可以进行自动构建和部署的最佳方式吗使用Jenkins? 最佳答案 Oozie工作流的部署只是将集群上不可用的xml文件和所需的依赖项放到HDFS目录中。link假设您有两个Jenkins作业,一个用于构建、测试等第二个用于部署,在成功构建第一个作业后触发您可以在第二个作业中编写将文件放在HDF

hadoop - 单个配置单元应用程序(作业)是否产生多个 yarn 应用程序?

提交给Yarn的单个HIVE查询是否会创建多个作业(即多个YARN应用程序)?在这里,我将工作和应用程序视为YARN上下文中的相同想法。据我了解——Yarn会为每个“应用程序”创建一个应用程序主机(AM)。因此,这里可以将单个HIVE查询视为“应用程序”。因此,资源管理器将在某个节点上创建容器并在该容器中启动AM。该容器反过来可能会创建多个“任务”(不是应用程序),即为该AM保留的其他容器内的映射器和缩减器(在相同或不同的节点上——这在这里并不重要)。现在,所有这些ApplicationMaster的集合都致力于解决提交给YARN的单个HIVE查询。事实上,这就是为什么我们说AM是针对

python - Hadoop 集群 - 在运行作业之前,我是否需要在所有机器上复制我的代码?

这就是让我感到困惑的地方,当我使用wordcount示例时,我将代码保留在master并让他与slave一起做事并且它运行良好但是当我运行我的代码时,它开始在奴隶上失败,给出奇怪的错误,如Traceback(mostrecentcalllast):File"/app/hadoop/tmp/mapred/local/taskTracker/hduser/jobcache/job_201110250901_0005/attempt_201110250901_0005_m_000001_1/work/./mapper.py",line55,infromsrc.utilitiesimportu

java - 在使用存储在 amazon s3 上的数据运行 Map reduce WordCount 作业时需要帮助

我正在尝试对存储在Amazons3存储桶中的文本文件运行MapreduceWordCount作业。我已经为mapreduce框架设置了与Amazon通信所需的所有必需的身份验证,但我继续运行此错误。知道为什么会这样吗?13/01/2013:22:15ERRORsecurity.UserGroupInformation:PriviledgedActionExceptionas:rootcause:org.apache.hadoop.mapred.InvalidInputException:Inputpathdoesnotexist:s3://name-bucket/test.txtExc

hadoop - 无法让pyspark作业在hadoop集群的所有节点上运行

总结:我无法让我的python-spark作业在我的hadoop集群的所有节点上运行。我已经为hadoop'spark-1.5.2-bin-hadoop2.6'安装了spark。启动javaspark作业时,负载得到分布在所有节点上,当启动pythonspark作业时,只有一个节点承担负载。设置:为4个节点配置的hdfs和yarn:nk01(名称节点)、nk02、nk03、nk04,在xen虚拟服务器上运行版本:jdk1.8.0_66、hadoop-2.7.1、spark-1.5.2-bin-hadoop2.6hadoop安装了所有4个节点spark只安装在nk01上我将一堆Guten