Данные о событиях, поступающие из тем MySQL и Кафки. Мы загрузим исторические данные из MySQL, а затем переключимся на Kafka для текущих данных. Mysql Идентификаторы также поступают в Kafka. Поэтому сообщения содержат идентификаторы событий. События потока Kafka будут обрабатываться с использованием задания «спарк» и, в конечном счете, включать данные в таблицы отчетов.
Проблема: как загрузить исторические данные и переключиться на источник Кафки в реальном времени.
1 - создать временную группа потребителей для хранения текущих смещений из всех разделов и текущей временной отметки TS1.
2 - получение минимального идентификатора и максимального идентификатора из таблицы MySQL, где дата создания <= TS1. И обработайте через разделы 500 тыс. Записей. </p>
3-х разовая обработка выполнена, передайте метку времени основной задаче запуска, которая обработает данные streAming из сохраненных смещений, но с датой события> TS1, а затем продолжите обработку .
Не должно быть дубликатов записей. Что вы думаете . Любые проблемы с этим подходом. Я вижу метку времени до секунд. Будут некоторые дубликаты, поскольку у нас нет точной даты до секунды Мили.