Pyspark: как контролировать, на каких узлах работают задания? - PullRequest
0 голосов
/ 12 марта 2019

Я провожу некоторые анализы на кластере Spark, который демонстрирует странное поведение - некоторые из 20+ узлов иногда перестают отвечать на запросы. Мы работаем над выяснением причины этого, но я также отчаянно нуждаюсь в обходном пути, когда это произойдет.

Допустим, я узнал, что узел foo не отвечает, и хочу запустить свою работу на всех других узлах. Я хочу сделать что-то вроде

sc = SparkContext()
sc.exclude_nodes(["foo"])

в моем скрипте (который я отправляю с помощью spark-submit).

Есть ли способ сделать это?

1 Ответ

0 голосов
/ 13 марта 2019

Какой мастер вы используете при отправке задания на искру, если оно

{- основная пряжа}

YARN

тогда я предложу вам проверить статус работы в Yarn UI и посмотреть, в чем проблема?

(1) Проверить статус вашей работы в Yarn (отправлено, не выполнено илиработает) вы можете найти там несколько ошибок.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...