Airflow и Spark / Hadoop - уникальный кластер или один для Airflow, а другой для Spark / Hadoop - PullRequest
0 голосов
/ 25 августа 2018

Я пытаюсь выяснить, как лучше всего работать с Airflow и Spark / Hadoop.У меня уже есть кластер Spark / Hadoop, и я подумываю о создании еще одного кластера для Airflow, который будет удаленно отправлять задания в кластер Spark / Hadoop.

Есть ли у вас какие-либо советы по этому поводу?Похоже, что немного сложнее удаленно развернуть спарк из другого кластера, что приведет к некоторому дублированию конфигурации файла.

Ответы [ 3 ]

0 голосов
/ 28 августа 2018

Я предпочитаю отправлять Spark Jobs с использованием SSHOperator и запускать команду spark-submit, которая спасет вас от копирования / вставки yarn-site.xml. Кроме того, я бы не стал создавать кластер для Airflow, если единственная задача, которую я выполняю, - это запуск заданий Spark, с одной виртуальной машиной с LocalExecutor все будет в порядке.

0 голосов
/ 12 декабря 2018

Существует множество вариантов удаленного выполнения spark-submit через Airflow.

Обратите внимание, что ни один из них не готов plug-and-play , и вам придется написать своих собственных операторов, чтобы добиться цели.

0 голосов
/ 25 августа 2018

Вам действительно нужно настроить yarn-site.xml файл, я думаю, чтобы spark-submit --master yarn --deploy-mode client работал. (Вы можете попробовать режим развертывания кластера, но я думаю, что управление драйвером с помощью Airflow - неплохая идея)

После развертывания Application Master в YARN Spark запускается локально в кластере Hadoop.

Если вы действительно хотите, вы можете добавить hdfs-site.xml и hive-site.xml, которые также будут отправлены из Airflow (если это возможно), но в противном случае, по крайней мере, файлы hdfs-site.xml должны быть выбраны из контейнера YARN classpath (не на всех NodeManager может быть установлен клиент Hive)

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...