Мы развернули программу потоковой структурированной потоковой передачи, которая считывает данные из kafka и помещает некоторые результаты в нашу базу данных.Процесс состоит из трех этапов.1) считывание с кафки 2) выполнение некоторого состояния процесса / обновления и 3) запись метрик (части данных) в нашу базу данных для each minute
.Откуда искра структурированной потоковой передачи знает, когда прекратить чтение из kafka и перейти на следующий уровень, который обрабатывает данные?В настоящее время мы видим очень странное поведение для каждого пакета, когда чтение kafka занимает около 2 минут, а обработка данных занимает 30 секунд, а последний шаг занимает 3 секунды, но помещает три метрики в базу данных (что представляет собой данные за три минуты).Все они находятся внутри одной партии, но, как я вижу, это можно разделить на три разные партии.Я не мог найти документацию или фрагмент кода, объясняющий поведение.