Поведение Flink Kinesis Producer, когда целевой поток находится в состоянии ОБНОВЛЕНИЕ из-за UpdateShardCount - PullRequest
0 голосов
/ 11 марта 2020

Цитирование из https://ci.apache.org/projects/flink/flink-docs-stable/dev/connectors/kinesis.html#kinesis -производителя

В случае сбоя или переназначения данные будут снова записаны в Kinesis, что приведет к дублированию. Такое поведение обычно называется семантикой «хотя бы один раз».

  1. Как определить, сколько сообщений будет воспроизведено, когда целевой поток кинезиса находится в состоянии обновления? из-за перефразирования?

  2. Как можно ограничить количество сообщений, воспроизводимых в таком сценарии?

1 Ответ

0 голосов
/ 11 марта 2020

В случае сбоев данные воспроизводятся с последней успешной контрольной точки. Я полагаю, что это похоже на повторное вычисление.

Чтобы сохранить количество дубликатов низким, вы хотите иметь частую контрольную точку (может go всего 100 мс). Если вы используете большое (пользовательское) состояние (как видно из размера контрольной точки в интерфейсе Flink), вам следует использовать инкрементную контрольную точку.

...