В книге «Потоковая передача Spark с Apache Spark» авторы упоминают, что поле «failOnDataLoss (default: true)» должно быть установлено в false при тестировании с Kafka в качестве источника. Они говорят,
Этот флаг указывает, может ли произойти сбой перезапуска потокового запроса.
в случае, если данные могут быть потеряны. Это обычно, когда смещения вне
диапазон, темы удалены или темы сбалансированы. Мы рекомендуем
установка этой опции на false во время цикла разработки / тестирования, потому что
остановка / перезапуск стороны запроса с непрерывным производителем часто
вызвать сбой. Установите для этого параметра значение true для производственного развертывания.
Я хочу понять, почему произошел сбой при остановке / перезапуске запроса. Как смещения выйдут за пределы диапазона? Разве Spark не поддерживает, какие смещения считываются контрольными точками?