Как найти рабочую информацию о кластере Spark? - PullRequest
3 голосов
/ 11 декабря 2019

У меня есть программа pyspark, которая использует несколько кластеров.

Как узнать, на какой машине работает каждый кластер, учитывая:

  • У меня нет доступа к сетиПользовательский интерфейс (работает с терминала удаленно)
  • Я использую Python и только Python, без Java или Scala
  • Любой уникальный идентификатор машиныприветствуется (IP-адрес, имя, серийный номер ...)
  • Мне нужно удобочитаемое значение, которое я могу распечатать на терминале

Я видел решения, которые просто даютspark.metrics.worker, но они не указывают, что означает "spark" в этом контексте (я могу сделать вывод, что это не SparkCluster).

Возможно ли реализовать решение, подобное thisодин , но с конфигурацией, которая выводит рабочую информацию вместо общей статистики?

from pyspark.sql import SparkSession

# example of an ideal solution

spark = SparkSession
    .builder
    .appName("myCoolApp")
    .config("spark.workers.show", "True")
    .getOrCreate()

Спасибо!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...