气流

气流：如何从大查询输出中获取数据可用性的响应，并基于结果启动任务/副标题

要求是根据上游/依赖表的数据可用性启动DAG条件检查数据的可用性（在大查询的表中，n迭代数量）是否检查可用的数据。如果可用数据，请启动子标签/任务其他循环。很高兴看到一个明确的示例如何使用bigqueryoperator或``bigqueryvaluechecheckoperator''，然后执行这样的大查询{code}从timestamp（current_date（））和timestamp（date_add（current_date（），1，'day'）之间的dateTime选择1个限制1{code}如果查询输出为1（这意味着可用于当今负载的数据），则启动DAG，其他循环继续进行，如附件图链

可用性副标题 section 数据检查

使自定义的气流宏扩展其他宏

有什么方法可以在空气流中制作用户定义的宏，该宏本身是从其他宏计算的？fromairflowimportDAGfromairflow.operators.bash_operatorimportBashOperatordag=DAG('simple',schedule_interval='021***',user_defined_macros={'next_execution_date':'{{dag.following_schedule(execution_date)}}',},)task=BashOperator(task_id='bash_op',bash_command='echo"{{n

气流扩展 execution code execution_date

暂停的DAG在将气流从1.8.0升级到1.8.1上重新启动？

最近，我将气流从1.8.0升级到1.8.1。升级良好，但是一旦重新启动Web服务器和调度程序，所有暂停的DAG会自动重新启动，并从停止之日起就开始运行多次运行。它弄乱了大多数用户数据，我们需要手动清理。我们如何防止将来的升级发生？看答案在airflow.cfg只是确保有dags_are_paused_at_creation=True我相信这应该照顾您的问题。遇到类似的事情是非常烦人的，所以我为此感到抱歉！

气流暂停 section 升级 code

气流回填DAG运行依赖

当我回填特定日期的DAG时，我想依次运行它，即我希望它日复一日地运行完成特定日期的所有任务，然后再进行第二天。.我使用了deweds_on_past参数，但是它只是帮助我设置对不在dag运行中的任务的依赖性。示例：-DAG_A有4个任务，我在DAG_A（第一天）执行第一个任务后，我将背部填充与Diveds_on_past一起使用，它触发了DAG_A的第一个任务（第二天），我不想要它看答案可以在全局airflow.cfg文件中设置最大每次DAG运行次数的选项。要设置的参数是max_active_runs_per_dag。

回填气流 section 二天任务

即使从配置中删除示例DAG，气流也会继续显示示例DAG

即使我关闭后，气流示例DAG仍保留在UI中load_examples=False在配置文件中。该系统告知DAG不存在DAG文件夹中的DAG，但是它们仍保留在UI中，因为调度程序已将其标记为元数据数据库中的活动。我知道将它们从那里删除的一种方法是直接在数据库中删除这些行，但是当然，这不是理想的选择。我应该如何从UI中删除这些DAG？看答案当前，除非手动删除数据库中的相应行，否则无法阻止已删除的DAG显示在UI上。唯一的方法是在INITDB之后重新启动服务器。

示例气流 section 删除数据

python - 使用气流将文件流式传输到kafka

使用气流将CSV文件流式传输到kafka主题的最佳方法是什么？为气流编写自定义运算符？最佳答案可能最好使用PythonOperator逐行处理文件。我有一个用例，我轮询和SFTP服务器获取文件，当我找到一些文件时，我逐行处理它们，将结果写为JSON。我会做一些事情，比如将日期解析为YYYY-MM-DD格式等。这样的事情可能对你有用:defcsv_file_to_kafka(**context):f='/path/to/downloaded/csv_file.csv'csvfile=open(f,'r')reader=csv.Di

流式气流 files 34 csv_file_to_kafka python apache-airflow