Question

Насколько я знаю, искровая структурированная потоковая передача - это отказоустойчивость при использовании контрольных точек.

Хочу прочитать с кафки.

Итак, допустим, что я использую контрольную точку, а затем по какой-то причине мой код падает / я его прекращаю, и я ожидаю, что при повторном запуске кода он восстановит обработанные данные.

Моя проблема в том, что в конфигурации чтения, если я установлю смещение на самое раннее значение, поэтому после повторного запуска кода я снова буду читать те же данные, а если я добавлю последний, я не буду читать данные между сбоями кода, пока я повторите код.

Существует ли способ читать только непрочитанные сообщения от kafka с помощью spark 2.3 - структурированная потоковая передача (pyspark) и восстанавливать обработанные данные с контрольных точек?

deo · Answer 1 · 03 апреля 2019

Это зависит от того, где ваш код падает.Вам не нужно устанавливать его как можно раньше, вы можете установить его до самого последнего.Вы всегда можете восстановить контрольную точку и обработать данные, Вот семантика контрольной точки

Обработка данных - Spark структурированная потоковая передача

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Обработка данных - Spark структурированная потоковая передача

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы