Я не знаю, задаю ли я себе неправильное решение моей проблемы.
Идея состоит в том, что я должен использовать от Кафки два источника данных из двух тем. Один из них, каждая микропакета должна принести весь свой контент. Примером может служить то, что у меня есть микропакет каждые 10 минут, и тема растет с обновлениями, добавленными самим Кафкой. Если в первый момент, от 0 до 10, потребление «A» и «B», а в следующий момент, от 10 до 20, вводится «C» и в теме есть данные «A», «B» y «C» Я хотел бы потреблять "A", "B" и "C". В настоящее время Spark структурирована для возврата
Партия 0: "A" и "B"
Партия 1: "C"
Есть идеи?
Спасибо за ваше время. Привет,