Вам действительно нужно настроить yarn-site.xml
файл, я думаю, чтобы spark-submit --master yarn --deploy-mode client
работал. (Вы можете попробовать режим развертывания кластера, но я думаю, что управление драйвером с помощью Airflow - неплохая идея)
После развертывания Application Master в YARN Spark запускается локально в кластере Hadoop.
Если вы действительно хотите, вы можете добавить hdfs-site.xml
и hive-site.xml
, которые также будут отправлены из Airflow (если это возможно), но в противном случае, по крайней мере, файлы hdfs-site.xml должны быть выбраны из контейнера YARN classpath (не на всех NodeManager может быть установлен клиент Hive)