Кафка: переключение источника с MySQL на Кафку - PullRequest
0 голосов
/ 23 января 2020

Данные о событиях, поступающие из тем MySQL и Кафки. Мы загрузим исторические данные из MySQL, а затем переключимся на Kafka для текущих данных. Mysql Идентификаторы также поступают в Kafka. Поэтому сообщения содержат идентификаторы событий. События потока Kafka будут обрабатываться с использованием задания «спарк» и, в конечном счете, включать данные в таблицы отчетов.

Проблема: как загрузить исторические данные и переключиться на источник Кафки в реальном времени.

1 - создать временную группа потребителей для хранения текущих смещений из всех разделов и текущей временной отметки TS1.

2 - получение минимального идентификатора и максимального идентификатора из таблицы MySQL, где дата создания <= TS1. И обработайте через разделы 500 тыс. Записей. </p>

3-х разовая обработка выполнена, передайте метку времени основной задаче запуска, которая обработает данные streAming из сохраненных смещений, но с датой события> TS1, а затем продолжите обработку .

Не должно быть дубликатов записей. Что вы думаете . Любые проблемы с этим подходом. Я вижу метку времени до секунд. Будут некоторые дубликаты, поскольку у нас нет точной даты до секунды Мили.

1 Ответ

0 голосов
/ 23 января 2020

Источник JDB C как Debezium, так и Kafka Connect позволяет выполнять массовую загрузку моментальных снимков в топику Kafka c. Нет необходимости в Spark.

После начальной загрузки вы можете хранить базу данных для записи событий CD C, пока вы не перепишете производителя для активной отправки этих данных в его собственную топи c.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...