Предполагая, что вы используете Spark, вы можете использовать SparkSubmitOperator
в потоке воздуха.Задание (файл jar
или py
), которое будет отправлено в Spark, должно подключаться к IP-адресу вашего локального кластера Hadoop.Имейте в виду, что для удаленного запуска этого задания Spark потребуется либо правильно настроить брандмауэр (не рекомендуется), либо запустить его в общем VPC.Последний создает частную сеть, которая содержит как кластер, так и настройку Airflow, что позволяет обеим системам безопасно взаимодействовать друг с другом.