Настройка внешнего компьютера в качестве клиентского узла YARN, как правило, трудна для выполнения и не является рабочим процессом, который будет легко работать с Dataproc.
В комментарии вы упоминаете, что вы действительно хотите сделать
- Отправка задания Spark в кластер Dataproc.
- Запускать локальный скрипт для каждого "batchFinish" (
StreamingListener.onBatchCompleted
?).
- Сценарий имеет зависимости, которые означают, что он не может работать внутри главного узла Dataproc.
Опять же, настройка клиентского узла вне кластера Dataproc и запуск его для работы с spark-submit
не будет работать напрямую. Однако, если вы можете настроить свою сеть так, чтобы драйвер Spark (работающий в Dataproc) имел доступ к службе / скрипту, который вам нужно запустить, а затем вызывал его при желании.
Если вы запускаете службу на виртуальной машине, имеющей доступ к сети кластера Dataproc, драйвер Spark должен иметь доступ к службе.