Question

У меня есть программа pyspark, которая использует несколько кластеров.

Как узнать, на какой машине работает каждый кластер, учитывая:

У меня нет доступа к сетиПользовательский интерфейс (работает с терминала удаленно)
Я использую Python и только Python, без Java или Scala
Любой уникальный идентификатор машиныприветствуется (IP-адрес, имя, серийный номер ...)
Мне нужно удобочитаемое значение, которое я могу распечатать на терминале

Я видел решения, которые просто даютspark.metrics.worker, но они не указывают, что означает "spark" в этом контексте (я могу сделать вывод, что это не SparkCluster).

Возможно ли реализовать решение, подобное thisодин , но с конфигурацией, которая выводит рабочую информацию вместо общей статистики?

from pyspark.sql import SparkSession

# example of an ideal solution

spark = SparkSession
    .builder
    .appName("myCoolApp")
    .config("spark.workers.show", "True")
    .getOrCreate()

Спасибо!

Как найти рабочую информацию о кластере Spark?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Как найти рабочую информацию о кластере Spark?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Нет похожих вопросов