Question

Я пытаюсь свести к минимуму изменения в моем коде, поэтому мне интересно, есть ли способ отправить потоковое задание с моего персонального ПК / ВМ следующим образом:

spark-submit --class path.to.your.Class --master yarn --deploy-mode client \
    [options] <app jar> [app options]

без использованияGCP SDK.

Я также должен указать каталог с файлами конфигурации HADOOP_CONF_DIR, который мне удалось загрузить из Ambari.Есть ли способ сделать то же самое?

Спасибо

Ben Sidhom · Answer 1 · 31 января 2019

Настройка внешнего компьютера в качестве клиентского узла YARN, как правило, трудна для выполнения и не является рабочим процессом, который будет легко работать с Dataproc.

В комментарии вы упоминаете, что вы действительно хотите сделать

Отправка задания Spark в кластер Dataproc.
Запускать локальный скрипт для каждого "batchFinish" (StreamingListener.onBatchCompleted?).
- Сценарий имеет зависимости, которые означают, что он не может работать внутри главного узла Dataproc.

Опять же, настройка клиентского узла вне кластера Dataproc и запуск его для работы с spark-submit не будет работать напрямую. Однако, если вы можете настроить свою сеть так, чтобы драйвер Spark (работающий в Dataproc) имел доступ к службе / скрипту, который вам нужно запустить, а затем вызывал его при желании.

Если вы запускаете службу на виртуальной машине, имеющей доступ к сети кластера Dataproc, драйвер Spark должен иметь доступ к службе.

GCP Dataproc: прямая работа со Spark над кластером пряжи

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

GCP Dataproc: прямая работа со Spark над кластером пряжи

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы