草庐IT

incubator-airflow

全部标签

redis - 请求中的 Airflow CROSSSLOT 键不会使用 AWS ElastiCache 散列到相同的插槽错误

我在AWSECS上运行apache-airflow1.8.1,我有一个AWSElastiCache集群(redis3.2.4),运行2个分片/2个节点,启用了多可用区(集群redis引擎)。我已经验证Airflow可以毫无问题地访问集群的主机/端口。这是日志:ThuJul2001:39:21UTC2017-Checkingforredis(endpoint:redis://xxxxxx.xxxxxx.clustercfg.usw2.cache.amazonaws.com:6379)connectivityThuJul2001:39:21UTC2017-Connectedtoredis(

redis - 请求中的 Airflow CROSSSLOT 键不会使用 AWS ElastiCache 散列到相同的插槽错误

我在AWSECS上运行apache-airflow1.8.1,我有一个AWSElastiCache集群(redis3.2.4),运行2个分片/2个节点,启用了多可用区(集群redis引擎)。我已经验证Airflow可以毫无问题地访问集群的主机/端口。这是日志:ThuJul2001:39:21UTC2017-Checkingforredis(endpoint:redis://xxxxxx.xxxxxx.clustercfg.usw2.cache.amazonaws.com:6379)connectivityThuJul2001:39:21UTC2017-Connectedtoredis(

airflow v2.6.0 k8s 部署(Rancher)

文章目录物料准备部署步骤验证总结物料准备k8sRancher,阿里云的nas存储一台物理机(需要挂载PVC:dagsplugins和logs)mysql数据库和redis包含airflow以及对应依赖库的基础镜像这里使用airflow的CeleryExecutor部署在k8s上,并不是使用KubernetesExecutor.基础镜像构建Dockerfile文件这里使用的是airflow官方的V2.6.0的python3.10的镜像FROMapache/airflow:slim-latest-python3.10USERrootEXPOSE808055558793COPYconfig/airf

AWS-EMR & Airflow 调度hivesql 异常thrift.transport.TTransport.TTransportException: TSocket read 0 bytes

通过Airflow调用EMR中的hive执行sql,遇到错误异常hh=HiveServer2Hook(hiveserver2_conn_id="hive_connect_emr")res=hh.get_pandas_df("showtables")[2022-10-13,21:46:21]{{taskinstance.py:1703}}ERROR-TaskfailedwithexceptionTraceback(mostrecentcalllast):File“/usr/local/lib/python3.7/site-packages/airflow/models/taskinstance.

大数据调度平台oozie、azkaban、dolphinscheduler、AirFlow对比

 ApacheOozie#   LinkedinAzkaban#   Azkaban:最适合shell脚本,当job不多的时候,可以使用。 ApacheAirflow#     Airflow在使用时有一大痛点:使用Python语言来定义工作流的。  ApacheDolphinScheduler#  特点:分布式、去中心化、易扩展的可视化工作流任务调度系统  海豚调度的多租户和我们YARN的多租户是对应起来的,这个非常好。海豚调度出来的有点迟,它把我们之前讲的Oozie、Azkaban、airflow的优点全拿过来了,后发优势,集万千优点于一身,缺点也避免了。离线:用的Spark比较多,实时用

linux - 如何停止/杀死以守护进程模式启动的 Airflow 调度程序

我是airflow的新手,不小心在守护进程模式下启动了airflowscheduler。现在,我想终止调度程序并可能重新启动它。我试过做sudokill-9pkill什么都没有发生。当我运行时psaux|grep'airflowscheduler'我看到了这些条目:user129076.01.032978862996?Sl17:371:26/users/user1/anaconda2/bin/python/users/user1/anaconda2/bin/airflowscheduler-Duser129090.00.932757658948?Sl17:370:00/users/us

linux - 如何停止/杀死以守护进程模式启动的 Airflow 调度程序

我是airflow的新手,不小心在守护进程模式下启动了airflowscheduler。现在,我想终止调度程序并可能重新启动它。我试过做sudokill-9pkill什么都没有发生。当我运行时psaux|grep'airflowscheduler'我看到了这些条目:user129076.01.032978862996?Sl17:371:26/users/user1/anaconda2/bin/python/users/user1/anaconda2/bin/airflowscheduler-Duser129090.00.932757658948?Sl17:370:00/users/us

mysql - Airflow如何获取和处理mysql记录?

我需要1.runaselectqueryonMYSQLDBandfetchtherecords.2.Recordsareprocessedbypythonscript.我不确定我应该如何进行。xcom是去这里的路吗?此外,MYSQLOperator只执行查询,不获取记录。我可以使用任何内置的传输运算符吗?如何在这里使用MYSQLHook?youmaywanttouseaPythonOperatorthatusesthehooktogetthedata,applytransformationandshipthe(nowscored)rowsbacksomeotherplace.有人可以解

mysql - Airflow如何获取和处理mysql记录?

我需要1.runaselectqueryonMYSQLDBandfetchtherecords.2.Recordsareprocessedbypythonscript.我不确定我应该如何进行。xcom是去这里的路吗?此外,MYSQLOperator只执行查询,不获取记录。我可以使用任何内置的传输运算符吗?如何在这里使用MYSQLHook?youmaywanttouseaPythonOperatorthatusesthehooktogetthedata,applytransformationandshipthe(nowscored)rowsbacksomeotherplace.有人可以解

DolphinDB +Python Airflow 高效实现数据清洗

DolphinDB作为一款高性能时序数据库,其在实际生产环境中常有数据的清洗、装换以及加载等需求,而对于该如何结构化管理好ETL作业,Airflow提供了一种很好的思路。本篇教程为生产环境中ETL实践需求提供了一个解决方案,将PythonAirflow引入到DolphinDB的高可用集群中,通过使用Airflow所提供的功能来实现更好管理DolphinDB数据ETL作业,整体架构如下:1.Airflow1.1Airflow简介Airflow是一个可编程,调度和监控的工作流平台,基于有向无环图(Directedacyclicgraph,DAG),Airflow可以定义一组有依赖的任务,按照依赖依