GCP Dataproc: прямая работа со Spark над кластером пряжи - PullRequest
0 голосов
/ 22 января 2019

Я пытаюсь свести к минимуму изменения в моем коде, поэтому мне интересно, есть ли способ отправить потоковое задание с моего персонального ПК / ВМ следующим образом:

spark-submit --class path.to.your.Class --master yarn --deploy-mode client \
    [options] <app jar> [app options]

без использованияGCP SDK.

Я также должен указать каталог с файлами конфигурации HADOOP_CONF_DIR, который мне удалось загрузить из Ambari.Есть ли способ сделать то же самое?

Спасибо

1 Ответ

0 голосов
/ 31 января 2019

Настройка внешнего компьютера в качестве клиентского узла YARN, как правило, трудна для выполнения и не является рабочим процессом, который будет легко работать с Dataproc.

В комментарии вы упоминаете, что вы действительно хотите сделать

  1. Отправка задания Spark в кластер Dataproc.
  2. Запускать локальный скрипт для каждого "batchFinish" (StreamingListener.onBatchCompleted?).
    • Сценарий имеет зависимости, которые означают, что он не может работать внутри главного узла Dataproc.

Опять же, настройка клиентского узла вне кластера Dataproc и запуск его для работы с spark-submit не будет работать напрямую. Однако, если вы можете настроить свою сеть так, чтобы драйвер Spark (работающий в Dataproc) имел доступ к службе / скрипту, который вам нужно запустить, а затем вызывал его при желании.

Если вы запускаете службу на виртуальной машине, имеющей доступ к сети кластера Dataproc, драйвер Spark должен иметь доступ к службе.

...