В случае сбоев данные воспроизводятся с последней успешной контрольной точки. Я полагаю, что это похоже на повторное вычисление.
Чтобы сохранить количество дубликатов низким, вы хотите иметь частую контрольную точку (может go всего 100 мс). Если вы используете большое (пользовательское) состояние (как видно из размера контрольной точки в интерфейсе Flink), вам следует использовать инкрементную контрольную точку.