所有Hadoop作业都有唯一的jobid。您可以使用jobid获取作业状态或作业计数器。问题是我如何才能获得刚刚从我的脚本运行的作业的jobid?当然,我想以可靠且简单(如果可能)的方式做到这一点。例子:1)从我运行的脚本中:hadoopjar${HADOOP_STREAMING}\-Dmapred.job.name="$NAME"\-Dmapred.reduce.tasks=$NREDUCERS\-mapper"cat"\-file./reducer.py\-reducer"python./reducer.py"\-inputhdfs:/logs/2012-06-25/*.bz2\-
当我们执行dagrun时,在AirflowUI上的“图TableView”中,我们会获得每个作业运行的详细信息。JobID类似于“scheduled__2017-04-11T10:47:00”。我需要这个JobID来跟踪和创建日志,我在其中维护每个任务/dagrun花费的时间。所以我的问题是如何在正在运行的同一个dag中获取JobID。谢谢,切坦 最佳答案 这个值实际上叫做run_id,可以通过上下文或宏访问。在python运算符中,这是通过上下文访问的,而在bash运算符中,这是通过bash_command字段上的jinja模板访
框架Scrapy-Scrapyd服务器。我在获取spider内部的jobid值时遇到了一些问题。将数据发布到http://localhost:6800/schedule.json后响应是status=okjobid=bc2096406b3011e1a2d0005056c00008但是我需要在这个过程中在当前蜘蛛中使用这个jobid。它可用于打开{jobid}.log文件或其他动态原因。classSomeSpider(BaseSpider):name="some"start_urls=["http://www.example.com/"]defparse(self,response):i