Я выполняю пакетное задание в pyspark, где spark будет считывать данные из kafka topi c каждые 5 минут.
df = spark \
.read \
.format("kafka") \
.option("kafka.bootstrap.servers", "host1:port1") \
.option("subscribePattern", "test") \
.option("startingOffsets", "earliest") \
.option("endingOffsets", "latest") \
.load()
Всякий раз, когда spark считывает данные из kafka, он считывает все данные, включая предыдущие партии. Я хочу прочитать данные для текущей партии или последних записей, которые ранее не читались. Пожалуйста, предложите! Спасибо.