Как гарантировать порядок событий в темах, сгенерированных debezium, хранящихся в kafka и отправленных в spark? - PullRequest
0 голосов
/ 03 мая 2019

Я работаю в проекте сбора данных об изменениях. У меня есть база данных MySQL. Я использую дебезиум, чтобы захватить все изменения и отправить его Кафке. А потом я читаю всю информацию от Spark и отправляю ее в Apache Phoenix, используя jdbc.

Я использую debezium с опцией перенаправления, которая отправляет изменения всех таблиц только в одну тему kafka. С этой конфигурацией я уверен, что смогу прочитать уникальную тему кафки от spark по порядку.

Но мой вопрос таков: если я использую дебезиум без опции перенаправления и у меня все таблицы меняются в разных темах кафки, как я могу гарантировать, что я читаю события всех тем в правильном порядке?

Я знаю, что могу использовать Spark, чтобы упорядочить его, например, по отметке времени, но если, скажем, одна тема кафки находится в автономном режиме 10 минут, потому что возникает проблема, но другие темы кафки продолжают работать, у меня будет в Spark проблема с упорядочением.

Как я могу столкнуться с этой проблемой?

...