Question

Я пытаюсь выяснить, как лучше всего работать с Airflow и Spark / Hadoop.У меня уже есть кластер Spark / Hadoop, и я подумываю о создании еще одного кластера для Airflow, который будет удаленно отправлять задания в кластер Spark / Hadoop.

Есть ли у вас какие-либо советы по этому поводу?Похоже, что немного сложнее удаленно развернуть спарк из другого кластера, что приведет к некоторому дублированию конфигурации файла.

kaxil · Answer 1 · 28 августа 2018

Я предпочитаю отправлять Spark Jobs с использованием SSHOperator и запускать команду spark-submit, которая спасет вас от копирования / вставки yarn-site.xml. Кроме того, я бы не стал создавать кластер для Airflow, если единственная задача, которую я выполняю, - это запуск заданий Spark, с одной виртуальной машиной с LocalExecutor все будет в порядке.

y2k-shubham · Answer 2 · 12 декабря 2018

Существует множество вариантов удаленного выполнения spark-submit через Airflow.

Emr-Step
Apache-Livy (см. this для подсказки)
SSH

Обратите внимание, что ни один из них не готов plug-and-play , и вам придется написать своих собственных операторов, чтобы добиться цели.

cricket_007 · Answer 3 · 25 августа 2018

Вам действительно нужно настроить yarn-site.xml файл, я думаю, чтобы spark-submit --master yarn --deploy-mode client работал. (Вы можете попробовать режим развертывания кластера, но я думаю, что управление драйвером с помощью Airflow - неплохая идея)

После развертывания Application Master в YARN Spark запускается локально в кластере Hadoop.

Если вы действительно хотите, вы можете добавить hdfs-site.xml и hive-site.xml, которые также будут отправлены из Airflow (если это возможно), но в противном случае, по крайней мере, файлы hdfs-site.xml должны быть выбраны из контейнера YARN classpath (не на всех NodeManager может быть установлен клиент Hive)

Airflow и Spark / Hadoop - уникальный кластер или один для Airflow, а другой для Spark / Hadoop

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Airflow и Spark / Hadoop - уникальный кластер или один для Airflow, а другой для Spark / Hadoop

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы