У нас мало искровых пакетных заданий и потоковых заданий.Пакетные задания Spark выполняются в облачной виртуальной машине Google, а потоковые задания Spark выполняются в кластере Google Dataproc.Становится трудно управлять работой.Поэтому мы хотели внедрить некоторый механизм для мониторинга здоровья рабочих мест.Наше основное требование состоит в том, чтобы знать:
- Сколько времени началось задание и сколько времени потребовалось для обработки данных.
- Сколько затронуто записей.
- Отправить оповещениеесли есть какая-либо ошибка.
- Визуализируйте вышеупомянутые метрики каждый день и при необходимости принимайте меры.
Я не очень хорошо разбираюсь в области искры.Я исследовал ведение журнала стека в Google Dataproc, но не нашел журналы потоковых заданий в кластерах dataproc.Я знаю, что можно использовать стек ELK, но я хотел бы знать, каковы лучшие практики в искровой экосистеме для такого рода требований.Спасибо.