Мы используем Flink 1.6.3 и сохраняем контрольную точку в CEPH, сохраняя только одну контрольную точку за раз, используя инкрементную и использующую пороги.
Мы запускаем windows с опозданием на 3 дня, что означает что мы ожидаем, что никакие данные в общей папке контрольных точек не будут сохраняться через 3-4 дня. Тем не менее, мы видим, что есть данные из более чем
например
Если сегодня 7/4, то есть некоторые файлы из 2/4
Иногда мы видим контрольные точки, которые мы предполагаем (из-за того, что его индексный номер не синхронизирован), что он принадлежит заданию, которое уничтожено, и контрольная точка не использовалась для восстановления задания
Мои вопросы:
- Почему мы видим данные, более старые из конфигурации запаздывания
- Как узнать, что файлы принадлежат действительной контрольной точке, а не контрольной точке сломанная работа - поэтому мы можем удалить эти файлы