Мне действительно нужен контрольный пункт Flink? - PullRequest
0 голосов
/ 08 октября 2019

У меня есть приложение Flink, которое читает некоторые события из Kafka, выполняет некоторое обогащение данных из MySQL, буферизует данные с помощью оконной функции и записывает данные в окне в HBase. В настоящее время я включил контрольные точки, но оказалось, что контрольные точки довольно дорогие, и со временем это занимает все больше и больше времени и влияет на задержку моей работы (отставание по скорости приема kafka). Если я найду способ заставить свои HBase писать идемпотенты, есть ли для меня веская причина использовать контрольные точки? Я могу просто настроить внутренний клиентский клиент kafka для коммитации так часто, верно?

1 Ответ

0 голосов
/ 13 октября 2019

Если единственной вещью, которую вы проверяете, является смещение (я) поставщика Kafka, то меня удивило бы, что время контрольной точки достаточно большое, чтобы замедлить ваш рабочий процесс. Или государство также сохраняется в другом месте? Если это так, вы можете пропустить это (если, согласно вашей заметке, записи HBase являются идемпотентными).

Обратите внимание, что вы также можете настроить интервал контрольных точек и (при необходимости) использовать инкрементные контрольные точки с RocksDB.

...