Отладка задачи отправки Spark в кластере Databricks - PullRequest
0 голосов
/ 04 мая 2020

Я работаю с Databricks на Azure, отправляя искровое задание в кластер. Это включает в себя выполнение запроса JSON с параметрами, указанными в https://docs.databricks.com/dev-tools/api/latest/jobs.html#jobssparksubmittask

Метод POST настраивается в сценарии, хранящемся на виртуальной машине, для которой настроен доступ к Databricks. Я указываю параметр отладки как

"--driver-java-options",
"-agentlib:jdwp=transport=dt_socket,server=y,suspend=y,address=5005",

После создания задания я запускаю его, и журналы кластера показывают следующий вывод на стандартный вывод:

Listening for transport dt_socket at address: 5005

Проблема заключается в том, что Я не уверен, какой правильный IP-адрес я должен указать в своей конфигурации удаленной отладки (я использую IntelliJ, если это помогает). Я пробовал IP-адрес виртуальной машины и имя хоста, которое отображается на вкладке «Spark Cluster UI - Master» в спецификациях кластера. Обе опции возвращают проблему соединения с тайм-аутом, из-за чего я думаю, что ни один из них не является правильным IP-адресом.

Кто-нибудь знает, как решить эту проблему?

Спасибо.

...