Более простой ответ: если вы просто используете kafka, преобразуете и загружаете информацию в другую систему, вам не нужно иметь контрольные точки, фиксаций смещения kafka должно быть достаточно.
Однако, если вы выполняете управление окнами и рассчитываете текущие агрегаты (например, среднее значение за последние 5 часов), тогда (предварительно извлеченные) данные для временного окна (в данном случае последние 5 часов) сохраняются в контрольной точке.Это то, что имеется в виду под
заморозить содержимое кадра данных, прежде чем я сделаю что-то еще
В отсутствие контрольной точки, когда приложение spark перезапускает работающие агрегатыбудет сброшен (поскольку только данные, полученные после последнего принятого смещения, будут использованы из kafka).
На основании ответа от: Необходима ли контрольная точка при потоковой передаче искры