Процесс восстановления после сбоя Флинка - PullRequest
0 голосов
/ 03 апреля 2019

Я хочу знать подробный процесс восстановления после сбоя flink. В автономном режиме я предполагаю, что некоторые шаги, такие как сбой TaskManager, сначала обнаруживают сбой, все задачи останавливают обработку, а затем повторно развертывают задачи. Затем загрузите контрольную точку из HDFS, и каждый оператор загрузит состояние. После завершения загрузки источник продолжает отправлять данные. Я прав? Кто-нибудь знает правильный и подробный процесс восстановления?

1 Ответ

0 голосов
/ 03 апреля 2019

Flink восстанавливается после сбоя через контрольные точки. Контрольные точки могут храниться локально, в S3 или HDFS. После восстановления все состояния различных операторов будут восстановлены.

Для подробного процесса восстановления, это действительно зависит от вашего бэкэнда. Если вы используете RocksDB.

  • ваша контрольная точка может быть инкрементальной
  • вы можете использовать данные контрольной точки в качестве точки сохранения, если вам не нужно менять бэкэнд. Это означает, что вы можете изменить параллелизм при восстановлении с контрольной точки.
...