Question

В книге «Потоковая передача Spark с Apache Spark» авторы упоминают, что поле «failOnDataLoss (default: true)» должно быть установлено в false при тестировании с Kafka в качестве источника. Они говорят,

Этот флаг указывает, может ли произойти сбой перезапуска потокового запроса. в случае, если данные могут быть потеряны. Это обычно, когда смещения вне диапазон, темы удалены или темы сбалансированы. Мы рекомендуем установка этой опции на false во время цикла разработки / тестирования, потому что остановка / перезапуск стороны запроса с непрерывным производителем часто вызвать сбой. Установите для этого параметра значение true для производственного развертывания.

Я хочу понять, почему произошел сбой при остановке / перезапуске запроса. Как смещения выйдут за пределы диапазона? Разве Spark не поддерживает, какие смещения считываются контрольными точками?

Сценарии потери данных при перезапуске потокового запроса с Kafka в качестве источника

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Сценарии потери данных при перезапуске потокового запроса с Kafka в качестве источника

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы