Следите за всеми параметрами spark-submit - PullRequest
0 голосов
/ 10 июля 2019

У меня есть команда, в которой многие участники имеют разрешение отправлять задачи Spark в YARN (управление ресурсами) из командной строки.Трудно отследить, кто использует, сколько ядер, кто использует, сколько памяти ... например, сейчас я ищу программное обеспечение, инфраструктуру или что-то, что могло бы помочь мне контролировать параметры, которые использовал каждый член.Это будет мост между клиентом и пряжей.Затем я мог использовать его для фильтрации команд отправки.

Я посмотрел на mlflow , и мне действительно нравится отслеживание MLFlow, но оно было разработано для процесса обучения ML.Интересно, есть ли альтернатива для моих целей?Или есть другое решение проблемы.

Спасибо!

1 Ответ

0 голосов
/ 10 июля 2019

Я бы порекомендовал создать такой инструмент самостоятельно, так как он не слишком сложный, иметь сценарий-обертку для инициирования отправки, который регистрирует использование в БД, и после того, как задание спарк завершится, обертка будет знать, что нужно предоставить информацию. может быть сделано очень легко. Кроме того, вы можете даже заблокировать новые искры, если ваша команда уже запросила слишком много информации.

И когда вы создаете его сами, он становится по-настоящему гибким, поскольку вы даже можете создавать «подгруппы» или что угодно.

...