Я разработал искровое структурированное потоковое приложение, которое считывает данные из топологии Kafka c, агрегирует данные и затем выводит их на S3.
Теперь я пытаюсь найти наиболее подходящие аппаратные ресурсы необходимо для правильной работы приложения и минимизации затрат. Находя очень мало информации о том, как рассчитать правильный размер искрового кластера, зная размер входного сигнала, я выбрал стратегию проб и ошибок. Я развертываю приложения с минимальными ресурсами и добавляю ресурсы, пока приложение spark не будет работать стабильно.
При этом, как я могу убедиться, что приложение spark способно обрабатывать все данные на входе Kafka, а что за приложение не отстает? Есть ли специфика c metri c для поиска? Время выполнения задания и время обработки триггера?
Спасибо за ваши ответы!