草庐IT

SparkSubmitOperator

全部标签

apache-spark - Airflow SparkSubmitOperator - 如何在另一台服务器中提交 Spark

我是Airflow和Spark的新手,我正在努力使用SparkSubmitOperator。我们的Airflow调度器和我们的hadoop集群没有设置在同一台机器上(第一个问题:这是一个好的做法吗?)。我们有很多自动化程序需要调用pyspark脚本。这些pyspark脚本存储在hadoop集群(10.70.1.35)中。Airflow数据存储在Airflow机器(10.70.1.22)中。目前,当我们想要使用airflowspark-submit一个pyspark脚本时,我们使用一个简单的BashOperator,如下所示:cmd="sshhadoop@10.70.1.35spark-