У меня есть программа pyspark, которая использует несколько кластеров.
Как узнать, на какой машине работает каждый кластер, учитывая:
- У меня нет доступа к сетиПользовательский интерфейс (работает с терминала удаленно)
- Я использую Python и только Python, без Java или Scala
- Любой уникальный идентификатор машиныприветствуется (IP-адрес, имя, серийный номер ...)
- Мне нужно удобочитаемое значение, которое я могу распечатать на терминале
Я видел решения, которые просто даютspark.metrics.worker
, но они не указывают, что означает "spark
" в этом контексте (я могу сделать вывод, что это не SparkCluster).
Возможно ли реализовать решение, подобное thisодин , но с конфигурацией, которая выводит рабочую информацию вместо общей статистики?
from pyspark.sql import SparkSession
# example of an ideal solution
spark = SparkSession
.builder
.appName("myCoolApp")
.config("spark.workers.show", "True")
.getOrCreate()
Спасибо!