Как выяснить Kafka, StartOffsets и EndOffsets в запланированном пакетном задании Spark? - PullRequest
0 голосов
/ 26 сентября 2019

Я пытаюсь прочитать тему Кафки в моем пакетном задании Spark и опубликовать в другой теме.Я не использую потоковую передачу, потому что она не подходит для нашего варианта использования.Согласно документам спарк, пакетное задание начинает читать с самых ранних смещений Kafka по умолчанию, и поэтому, когда я снова запускаю задание, оно снова считывает с самого раннего.Как мне убедиться, что задание получает следующий сдвиг с того места, где оно было прочитано в последний раз?

В соответствии с документацией Spark Kafka Integration есть опции для указания «startOffsets» и «endOffsets».Но как мне их выяснить?

Я использую API spark.read.format("kafka") для чтения данных из Kafka как набора данных.Но я не нашел никакой возможности получить начальный и конечный диапазон смещения из этого набора данных.

...