Flink - сбой при восстановлении с точки сохранения (контрольной точки).причина по java.lang.IllegalStateException: нет оператора для государства - PullRequest
0 голосов
/ 06 февраля 2019

Проблема:

Диспетчеру заданий Flink не удалось восстановить с контрольной точки.Вызвано: java.lang.IllegalStateException: Нет оператора для состояния

Справочная информация: Я запускаю Flink 1.6.3 через k8s.и я использую инкрементную контрольную точку на rocksdb.

Я попытался передать параметр --allowNonRestoredState, чтобы пропустить состояние точки сохранения, которое невозможно восстановить

Из моего журнала:

2019-02-06 08: 51: 08.068 [главная] ИНФОРМАЦИЯ org.apache.flink.runtime.entrypoint.ClusterEntrypoint -
--allowNonRestoredState

2019-02-06 08: 51: 22.827 [flink-akka.actor.default-dispatcher-14] INFO oafruntime.checkpoint.ZooKeeperCompletedCheckpointStore - Восстановление контрольных точек из ZooKeeper.2019-02-06 08: 51: 22.883 [flink-akka.actor.default-dispatcher-14] ИНФОРМАЦИЯ oafruntime.checkpoint.ZooKeeperCompletedCheckpointStore - Найдено 1 контрольных точек в ZooKeeper.2019-02-06 08: 51: 22.883 [flink-akka.actor.default-dispatcher-14] INFO oafruntime.checkpoint.ZooKeeperCompletedCheckpointStore - Попытка получить 1 контрольные точки из хранилища.2019-02-06 08: 51: 22.884 [flink-akka.actor.default-dispatcher-14] INFO oafruntime.checkpoint.ZooKeeperCompletedCheckpointStore - Попытка получить контрольную точку 1612. 2019-02-06 08: 51: 22.977 [flink-akka.actor.default-dispatcher-14] ИНФОРМАЦИЯ org.apache.flink.runtime.checkpoint.CheckpointCoordinator - Восстановление задания 00000000000000000000000000000000 с последней действительной контрольной точки: Контрольная точка 1612 @ 1549376250641 для 0000000000000000000000000000000000: 22-02-02akka.actor.default-dispatcher-14] ОШИБКА org.apache.flink.runtime.entrypoint.ClusterEntrypoint - В точке входа кластера произошла неустранимая ошибка.java.lang.RuntimeException: org.apache.flink.runtime.client.JobExecutionException: Не удалось настроить JobManager в org.apache.flink.util.function.CheckedSupplier.lambda $ без проверки $ 0 (CheckedSupplier.java:36) в Java.util.concurrent.CompletableFuture $ AsyncSupply.run (CompletableFuture.java:1590) в akka.dispatch.TaskInvocation.run (AbstractDispatcher.scala: 39) в akka.dispatch..concurrent.forkjoin.) at scala.concurrent.forkjoin.ForkJoinWorkerThread.run (ForkJoinWorkerThread.java:107) Вызвано: org.apache.flink.runtime.client.JobExecutionException: Не удалось настроить JobManager в org.apache.flink.masterJrun. (JobManagerRunner.java:176) в org.apache.flink.runtime.dispatcher.Dispatcher $ DefaultJobManagerRunnerFactory.createJobManagerRunner (Dispatcher.java:1058) в org.apache.flink.runtime.dispatcher.Dispatcher.lambda $ createJobManagerRunner $ 5 (Dispatcher.java:308) в org.apache.flink.lachecked$ 0 (CheckedSupplier.java:34) ... Пропущено 7 общих фреймов. Причина: java.lang.IllegalStateException: нет оператора для состояния: 569) по адресу org.apache.flink.runtime.checkpoint.StateAssignmentOperation.assignStates (StateAssignmentOperation.java:77) по адресу org.apache.flink.runtime.checkpoint.CheckpointCoordinator.restoreLatestCheckpointedState (CheckpointCoordinap.gat.org): orgflink.runtime.jobmaster.JobMaster.createAndRestoreExecutionGraph (JobMaster.java:1138) в org.apache.flink.runtime.jobmaster.JobMaster. (JobMaster.java:294)at org.apache.flink.runtime.jobmaster.JobManagerRunner. (JobManagerRunner.java:157) ... опущено 10 общих фреймов 2019-02-06 08: 51: 23.013 [Завершение работы при отключении TransientBlobCache] INFO org.apache.flink.runtime.blob.TransientBlobCache - Завершение работы кеша BLOB 2019-02-06 08: 51: 23.033 [Хук выключения BlobServer] INFO org.apache.flink.runtime.blob.BlobServer - Сервер BLOB остановлен с 0.0.0.0:6124

Ожидаемый результат:

Задание начнется с последней контрольной точки и пропустит состояние, которое невозможно восстановить

...