Запуск задач локального кластера hadoop из облачного композитора - PullRequest
0 голосов
/ 05 февраля 2019

Я пытаюсь настроить облачную платформу Google управляемой службой Airflow (Cloud Composer) таким образом, чтобы она могла запускать задачи в рабочем процессе в моем локальном кластере Hadoop, а не в облаке Google.Я не могу найти много информации об этом.Документация Cloud Composer рассказывает о запуске заданий на виртуальном виртуальном канале в облаке Google, но не на локальном.Любая помощь будет оценена.

Ответы [ 2 ]

0 голосов
/ 23 марта 2019

Cloud Composer запускает своих сотрудников, используя модули CeleryExecutor в кластере GKE.Для запуска задач в локальной инфраструктуре вам необходимо настроить среду Composer таким образом, чтобы кластер GKE был доступен для вашей сетевой инфраструктуры или из нее, если ваша инфраструктура не доступна из общедоступного Интернета.

ДляДля этого рассмотрите вопрос о гибридном подключении Google Cloud .Вы можете использовать Cloud Interconnect и Cloud VPN для пиринга вашей локальной инфраструктуры с помощью VPC, который вы можете настроить для использования Composer.

0 голосов
/ 05 февраля 2019

Предполагая, что вы используете Spark, вы можете использовать SparkSubmitOperator в потоке воздуха.Задание (файл jar или py), которое будет отправлено в Spark, должно подключаться к IP-адресу вашего локального кластера Hadoop.Имейте в виду, что для удаленного запуска этого задания Spark потребуется либо правильно настроить брандмауэр (не рекомендуется), либо запустить его в общем VPC.Последний создает частную сеть, которая содержит как кластер, так и настройку Airflow, что позволяет обеим системам безопасно взаимодействовать друг с другом.

...