Spark Structured Streaming: потребляет для каждой микропакета все данные из темы Кафки - PullRequest
1 голос
/ 03 мая 2019

Я не знаю, задаю ли я себе неправильное решение моей проблемы.

Идея состоит в том, что я должен использовать от Кафки два источника данных из двух тем. Один из них, каждая микропакета должна принести весь свой контент. Примером может служить то, что у меня есть микропакет каждые 10 минут, и тема растет с обновлениями, добавленными самим Кафкой. Если в первый момент, от 0 до 10, потребление «A» и «B», а в следующий момент, от 10 до 20, вводится «C» и в теме есть данные «A», «B» y «C» Я хотел бы потреблять "A", "B" и "C". В настоящее время Spark структурирована для возврата

Партия 0: "A" и "B"

Партия 1: "C"

Есть идеи?

Спасибо за ваше время. Привет,

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...