Как определить, что PySpark работает на локальной машине - PullRequest
0 голосов
/ 10 апреля 2020

Обычно мы запускаем наш код PySpark в нашем кластере Spark. Этот код проверен автоматизированными тестами. Мы запускаем модульные и интеграционные тесты локально и (в конвейере) на кластере Spark. Конфигурация немного отличается в обеих ситуациях. Поэтому мне нужно знать, выполняется ли тест локально или в кластере.

Как программно определить, выполняется ли тест на локальном компьютере или в кластере Spark?

1 Ответ

0 голосов
/ 10 апреля 2020

spark.submit.deployMode - режим развертывания программы драйвера Spark, «клиент» или «кластер», что означает запуск программы драйвера локально («клиент») или удаленно («кластер») на один из узлов внутри кластера.

Вы также можете проверить режим развертывания, посетив веб-интерфейс. Spark предоставляет три из этих пользовательских интерфейсов: Master web UI, Worker web UI, Application web UI.

Чтобы проверить посещение пользовательского интерфейса (по умолчанию / может измениться в случае развертывания YARN et c): http://localhost: 4040 / api / v1 / application или http://10.0.2.15: 4040 .

Вам нужна вкладка Environment , и вы можете захотеть очистить его или использовать REST API, если вы не хотите иметь дело с SparkListeners:

На вкладке «Среда» отображаются значения для различных переменных среды и конфигурации, включая JVM, Spark и системные свойства. .

Подробнее: https://spark.apache.org/docs/latest/monitoring.html

enter image description here

...