Сценарии потери данных при перезапуске потокового запроса с Kafka в качестве источника - PullRequest
2 голосов
/ 16 июня 2019

В книге «Потоковая передача Spark с Apache Spark» авторы упоминают, что поле «failOnDataLoss (default: true)» должно быть установлено в false при тестировании с Kafka в качестве источника. Они говорят,

Этот флаг указывает, может ли произойти сбой перезапуска потокового запроса. в случае, если данные могут быть потеряны. Это обычно, когда смещения вне диапазон, темы удалены или темы сбалансированы. Мы рекомендуем установка этой опции на false во время цикла разработки / тестирования, потому что остановка / перезапуск стороны запроса с непрерывным производителем часто вызвать сбой. Установите для этого параметра значение true для производственного развертывания.

Я хочу понять, почему произошел сбой при остановке / перезапуске запроса. Как смещения выйдут за пределы диапазона? Разве Spark не поддерживает, какие смещения считываются контрольными точками?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...