Обработка данных - Spark структурированная потоковая передача - PullRequest
0 голосов
/ 02 апреля 2019

Насколько я знаю, искровая структурированная потоковая передача - это отказоустойчивость при использовании контрольных точек.

Хочу прочитать с кафки.

Итак, допустим, что я использую контрольную точку, а затем по какой-то причине мой код падает / я его прекращаю, и я ожидаю, что при повторном запуске кода он восстановит обработанные данные.

Моя проблема в том, что в конфигурации чтения, если я установлю смещение на самое раннее значение, поэтому после повторного запуска кода я снова буду читать те же данные, а если я добавлю последний, я не буду читать данные между сбоями кода, пока я повторите код.

Существует ли способ читать только непрочитанные сообщения от kafka с помощью spark 2.3 - структурированная потоковая передача (pyspark) и восстанавливать обработанные данные с контрольных точек?

1 Ответ

0 голосов
/ 03 апреля 2019

Это зависит от того, где ваш код падает.Вам не нужно устанавливать его как можно раньше, вы можете установить его до самого последнего.Вы всегда можете восстановить контрольную точку и обработать данные, Вот семантика контрольной точки

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...