Какие инструменты / структуры я могу использовать для мониторинга и оповещения о рабочих местах? - PullRequest
0 голосов
/ 28 мая 2018

У нас мало искровых пакетных заданий и потоковых заданий.Пакетные задания Spark выполняются в облачной виртуальной машине Google, а потоковые задания Spark выполняются в кластере Google Dataproc.Становится трудно управлять работой.Поэтому мы хотели внедрить некоторый механизм для мониторинга здоровья рабочих мест.Наше основное требование состоит в том, чтобы знать:

  1. Сколько времени началось задание и сколько времени потребовалось для обработки данных.
  2. Сколько затронуто записей.
  3. Отправить оповещениеесли есть какая-либо ошибка.
  4. Визуализируйте вышеупомянутые метрики каждый день и при необходимости принимайте меры.

Я не очень хорошо разбираюсь в области искры.Я исследовал ведение журнала стека в Google Dataproc, но не нашел журналы потоковых заданий в кластерах dataproc.Я знаю, что можно использовать стек ELK, но я хотел бы знать, каковы лучшие практики в искровой экосистеме для такого рода требований.Спасибо.

Ответы [ 2 ]

0 голосов
/ 28 мая 2018

Добавление к тому, что сказал Игорь.

В драйвере стека есть метрики для базовых вещей, таких как успех / неудача и длительность, однако, ничего похожего на # 2.

Вы можете следить за этимПример , чтобы создать SparkListener и затем напрямую сообщать о метриках в API Stackdriver.

0 голосов
/ 28 мая 2018

Google Cloud Dataproc записывает журналы и отправляет метрики в Google Stackdriver , который можно использовать для мониторинга и оповещений.

Ознакомьтесь с документацией по использованию Dataproc со Stackdriver: https://cloud.google.com/dataproc/docs/guides/stackdriver-monitoring

...