Простой вопрос, я всегда читал об использовании Kafka с потоковой передачей искры (структурированной или нет).Используя это, вы можете положиться на автоматическую контрольную точку, автоматический перезапуск с последнего смещения / раздела и т. Д.
Теперь для требований проекта мне нужно прочитать тему Kafka, используя задание Spark Dataframe, запланированное вbatch fashion.
А как насчет смещения Кафки для каждой секции?Как я могу перезапустить каждый раз, когда начинается работа, читая только самые новые сообщения?
Другими словами: есть ли способ получить те же функции без необходимости выполнения задания потоковой передачи?