Как искровой структурированный поток знает, когда прекратить чтение данных? - PullRequest
0 голосов
/ 27 февраля 2019

Мы развернули программу потоковой структурированной потоковой передачи, которая считывает данные из kafka и помещает некоторые результаты в нашу базу данных.Процесс состоит из трех этапов.1) считывание с кафки 2) выполнение некоторого состояния процесса / обновления и 3) запись метрик (части данных) в нашу базу данных для each minute.Откуда искра структурированной потоковой передачи знает, когда прекратить чтение из kafka и перейти на следующий уровень, который обрабатывает данные?В настоящее время мы видим очень странное поведение для каждого пакета, когда чтение kafka занимает около 2 минут, а обработка данных занимает 30 секунд, а последний шаг занимает 3 секунды, но помещает три метрики в базу данных (что представляет собой данные за три минуты).Все они находятся внутри одной партии, но, как я вижу, это можно разделить на три разные партии.Я не мог найти документацию или фрагмент кода, объясняющий поведение.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...