Насколько я знаю, искровая структурированная потоковая передача - это отказоустойчивость при использовании контрольных точек.
Хочу прочитать с кафки.
Итак, допустим, что я использую контрольную точку, а затем по какой-то причине мой код падает / я его прекращаю, и я ожидаю, что при повторном запуске кода он восстановит обработанные данные.
Моя проблема в том, что в конфигурации чтения, если я установлю смещение на самое раннее значение, поэтому после повторного запуска кода я снова буду читать те же данные, а если я добавлю последний, я не буду читать данные между сбоями кода, пока я повторите код.
Существует ли способ читать только непрочитанные сообщения от kafka с помощью spark 2.3 - структурированная потоковая передача (pyspark) и восстанавливать обработанные данные с контрольных точек?