incubator-airflow

apache-spark - 使用 Airflow dag run 创建 EMR 集群，任务完成后 EMR 将终止

我有Airflow作业，它们在EMR集群上运行良好。我需要的是，假设我有4个Airflow作业需要EMR集群，假设20分钟才能完成任务。为什么我们不能在DAG运行时创建一个EMR集群，一旦作业完成，它就会终止创建的EMR集群。最佳答案当然，那将是对资源最有效的利用。让我警告你:这里面有很多细节；我会尽力列出尽可能多的内容。我鼓励您添加自己的综合答案，列出您遇到的任何问题和解决方法(一旦您解决了这个问题)关于集群创建/终止对于集群的创建和终止，您有EmrCreateJobFlowOperator和EmrTerminateJobFl

hadoop - 在 Airflow 中重用任务

我正在尝试使用Airflow来编排我的一些数据管道。我为每个摄取管道执行多项任务。这些任务在多个摄取管道中重复进行。如何在Airflow中跨DAGS重用任务？最佳答案就像objectisaninstanceofaclass,Airflow任务是Operator的一个实例(严格来说，BaseOperator)因此，只需传递不同的参数(特别是task_id)，编写一个“可重用”(也称为通用)运算符并在您的管道中使用它100次关于hadoop-在Airflow中重用任务，我们在Stack

重用 Airflow section code noreferrer hadoop machine-learning bigdata orchestration

hadoop - Airflow 失败 : ParseException line 2:0 cannot recognize input near

我正在尝试在Airflow上运行测试任务，但我不断收到以下错误:FAILED:ParseException2:0cannotrecognizeinputnear'create_import_table_fct_latest_values''.''hql'这是我的AirflowDag文件:importairflowfromdatetimeimportdatetime,timedeltafromairflow.operators.hive_operatorimportHiveOperatorfromairflow.modelsimportDAGargs={'owner':'raul','s

ParseException recognize 39 code latest hadoop hive airflow

apache-spark - Airflow and Spark/Hadoop - 独特的集群或一个用于 Airflow，另一个用于 Spark/Hadoop

我正在尝试弄清楚哪种方式是使用Airflow和Spark/Hadoop的最佳方式。我已经有一个Spark/Hadoop集群，我正在考虑为Airflow创建另一个集群，它将远程提交作业到Spark/Hadoop集群。有什么建议吗？看起来从另一个集群远程部署spark有点复杂，并且会创建一些文件配置重复。最佳答案你真的只需要配置一个yarn-site.xml文件，我相信，为了spark-submit--masteryarn--deploy-modeclient上类。(您可以尝试集群部署模式，但我认为让Airflow管理驱动程序并不是

Airflow Hadoop section code apache-spark

hadoop - 在运算符之外使用 Airflow 宏

有没有办法在任何运算符之外使用Airflow宏？例如，在DAG中我有一个Action:datestamp='{{ds}}'print(datestamp)#printsstringnotthedatewhenIrunitforanydatescanner=S3KeySensor(task_id='scanner',poke_interval=60,timeout=24*60*60,soft_fail=False,wildcard_match=True,bucket_key=getPath()+datestamp,#datestampcorrectlyreplacedwithexecut

运算符 Airflow code my_thing section hadoop macros

python - 通过 Airflow UI 终止在远程位置运行的 Airflow 任务

Airflow安装在EC2上，它在EMR上触发脚本。如果我使用UI中的“清除”选项，UI会显示任务处于关闭状态，但我仍然可以看到任务在EMR上运行。我正在使用的Airflow正在运行LocalExecutor，我想知道如何终止正在运行的任务。我应该使用UI中的“清除”选项来停止正在运行的任务吗？还是使用清除任务以及一些代码更改下面是我的代码defexecute_on_emr(cmd):f=open(file,'r')s=f.read()keyfile=StringIO.StringIO(s)mykey=paramiko.RSAKey.from_private_key(keyfile)s

Airflow python section strong hadoop

hadoop - 如何以 Unix 用户身份运行 Apache Airflow DAG

我使用root帐户在我的集群上安装了ApacheAirflow。我知道这是不好的做法，但这只是测试环境。我创建了一个简单的DAG:fromairflowimportDAGfromairflow.operators.bash_operatorimportBashOperatorfromdatetimeimportdatetime,timedeltadag=DAG('create_directory',description='simplecreatedirectoryworkflow',start_date=datetime(2017,6,1))t1=BashOperator(task_

何以 Airflow code 39 hadoop apache-airflow

apache-spark - Airflow SparkSubmitOperator - 如何在另一台服务器中提交 Spark

我是Airflow和Spark的新手，我正在努力使用SparkSubmitOperator。我们的Airflow调度器和我们的hadoop集群没有设置在同一台机器上(第一个问题:这是一个好的做法吗？)。我们有很多自动化程序需要调用pyspark脚本。这些pyspark脚本存储在hadoop集群(10.70.1.35)中。Airflow数据存储在Airflow机器(10.70.1.22)中。目前，当我们想要使用airflowspark-submit一个pyspark脚本时，我们使用一个简单的BashOperator，如下所示:cmd="sshhadoop@10.70.1.35spark-

SparkSubmitOperator 何在 strong 39 spark apache-spark hadoop airflow

redis - 如何在不使用mysql的情况下在airflow中使用CeleryExecutor

我的后端是redis，但是airflow包中的airflow.cfg文件只给出了使用mysql作为后端的示例celery执行器。基本上不确定如何为redis后端设置/替换airflow.cfg中的以下sql_alchemy_conn。sql_alchemy_conn=sqlite:////Users/myself/airflow/airflow.db尝试谷歌搜索但没有成功。是否有使用redis作为CeleryExecutor后端的示例airflow.cfg？最佳答案 “sql_alchemy_conn”用于处理DAG运行等的元数据

CeleryExecutor 何在 code section airflow redis celery

redis - 带有redis的 Airflow celery -6小时后超时

我在使用airflow1.9.0和CeleryExecutor使用redis作为代理时遇到了一些问题。我需要运行一项需要6个多小时才能完成的工作，而且我正在失去我的celeryworker。查看GitHub中的Airflow代码，有一个硬编码配置:https://github.com/apache/incubator-airflow/blob/d760d63e1a141a43a4a43daee9abd54cf11c894b/airflow/config_templates/default_celery.py#L31我怎样才能绕过这个问题？最佳答案

redis Airflow section incubator-airflow

5 6 789 10 11