草庐IT

Airflow2

全部标签

AWS-EMR & Airflow 调度hivesql 异常thrift.transport.TTransport.TTransportException: TSocket read 0 bytes

通过Airflow调用EMR中的hive执行sql,遇到错误异常hh=HiveServer2Hook(hiveserver2_conn_id="hive_connect_emr")res=hh.get_pandas_df("showtables")[2022-10-13,21:46:21]{{taskinstance.py:1703}}ERROR-TaskfailedwithexceptionTraceback(mostrecentcalllast):File“/usr/local/lib/python3.7/site-packages/airflow/models/taskinstance.

大数据调度平台oozie、azkaban、dolphinscheduler、AirFlow对比

 ApacheOozie#   LinkedinAzkaban#   Azkaban:最适合shell脚本,当job不多的时候,可以使用。 ApacheAirflow#     Airflow在使用时有一大痛点:使用Python语言来定义工作流的。  ApacheDolphinScheduler#  特点:分布式、去中心化、易扩展的可视化工作流任务调度系统  海豚调度的多租户和我们YARN的多租户是对应起来的,这个非常好。海豚调度出来的有点迟,它把我们之前讲的Oozie、Azkaban、airflow的优点全拿过来了,后发优势,集万千优点于一身,缺点也避免了。离线:用的Spark比较多,实时用

linux - 如何停止/杀死以守护进程模式启动的 Airflow 调度程序

我是airflow的新手,不小心在守护进程模式下启动了airflowscheduler。现在,我想终止调度程序并可能重新启动它。我试过做sudokill-9pkill什么都没有发生。当我运行时psaux|grep'airflowscheduler'我看到了这些条目:user129076.01.032978862996?Sl17:371:26/users/user1/anaconda2/bin/python/users/user1/anaconda2/bin/airflowscheduler-Duser129090.00.932757658948?Sl17:370:00/users/us

linux - 如何停止/杀死以守护进程模式启动的 Airflow 调度程序

我是airflow的新手,不小心在守护进程模式下启动了airflowscheduler。现在,我想终止调度程序并可能重新启动它。我试过做sudokill-9pkill什么都没有发生。当我运行时psaux|grep'airflowscheduler'我看到了这些条目:user129076.01.032978862996?Sl17:371:26/users/user1/anaconda2/bin/python/users/user1/anaconda2/bin/airflowscheduler-Duser129090.00.932757658948?Sl17:370:00/users/us

mysql - Airflow如何获取和处理mysql记录?

我需要1.runaselectqueryonMYSQLDBandfetchtherecords.2.Recordsareprocessedbypythonscript.我不确定我应该如何进行。xcom是去这里的路吗?此外,MYSQLOperator只执行查询,不获取记录。我可以使用任何内置的传输运算符吗?如何在这里使用MYSQLHook?youmaywanttouseaPythonOperatorthatusesthehooktogetthedata,applytransformationandshipthe(nowscored)rowsbacksomeotherplace.有人可以解

mysql - Airflow如何获取和处理mysql记录?

我需要1.runaselectqueryonMYSQLDBandfetchtherecords.2.Recordsareprocessedbypythonscript.我不确定我应该如何进行。xcom是去这里的路吗?此外,MYSQLOperator只执行查询,不获取记录。我可以使用任何内置的传输运算符吗?如何在这里使用MYSQLHook?youmaywanttouseaPythonOperatorthatusesthehooktogetthedata,applytransformationandshipthe(nowscored)rowsbacksomeotherplace.有人可以解

DolphinDB +Python Airflow 高效实现数据清洗

DolphinDB作为一款高性能时序数据库,其在实际生产环境中常有数据的清洗、装换以及加载等需求,而对于该如何结构化管理好ETL作业,Airflow提供了一种很好的思路。本篇教程为生产环境中ETL实践需求提供了一个解决方案,将PythonAirflow引入到DolphinDB的高可用集群中,通过使用Airflow所提供的功能来实现更好管理DolphinDB数据ETL作业,整体架构如下:1.Airflow1.1Airflow简介Airflow是一个可编程,调度和监控的工作流平台,基于有向无环图(Directedacyclicgraph,DAG),Airflow可以定义一组有依赖的任务,按照依赖依

DolphinDB +Python Airflow 高效实现数据清洗

DolphinDB作为一款高性能时序数据库,其在实际生产环境中常有数据的清洗、装换以及加载等需求,而对于该如何结构化管理好ETL作业,Airflow提供了一种很好的思路。本篇教程为生产环境中ETL实践需求提供了一个解决方案,将PythonAirflow引入到DolphinDB的高可用集群中,通过使用Airflow所提供的功能来实现更好管理DolphinDB数据ETL作业,整体架构如下:1.Airflow1.1Airflow简介Airflow是一个可编程,调度和监控的工作流平台,基于有向无环图(Directedacyclicgraph,DAG),Airflow可以定义一组有依赖的任务,按照依赖依

Airflow2配置基于OAUTH2协议的Microsoft Azure SSO详细文档

文章目录一.方案选型二.单点登录配置2.1Airflow配置ssl登录2.2Azure配置Airflow代理2.2.1企业应用程序配置2.2.2应用程序注册配置2.3airflowwebserver.py配置2.4通过azure代理访问airflow三.airflow配置sso踩过的坑及解决方案3.1BadGateway:Thiscorporateappcan'tbeaccessed.3.2Ariflow界面访问报错:invalidclientsecretisprovided3.3代理访问报错:ThereplyURLspecifiedintherequestdoesnotmatchtherep

docker - 删除 Airflow Scheduler 日志

我正在使用DockerApacheAirflow版本1.9.0-2(https://github.com/puckel/docker-airflow)。调度程序产生大量日志,并且文件系统将很快耗尽空间,因此我试图以编程方式删除由Airflow创建的调度程序日志,该日志位于(/usr/local/airflow/的调度程序容器中)日志/调度程序)我已设置所有这些维护任务:https://github.com/teamclairvoyant/airflow-maintenance-dags但是,这些任务只删除worker上的日志,调度器日志在调度器容器中。我还设置了远程日志记录,将日志发送