Я использую Flink в автономном режиме на 1 хосте (JobManager, TaskManager на том же хосте).Сначала я могу нормально отправлять и отменять задания, которые отображаются в веб-интерфейсе и запускаются.
Однако через ~ 1 месяц, когда я отменил старую работу и отправил новую, я столкнулся с org.apache.flink.client.program.ProgramInvocationException: Не удалось получить результат выполнения.
В этот момент я смог запустить список flink , чтобы вывести список текущих работ, и flink cancel , чтобы отменить задание, но flink run не удалось.Было сгенерировано исключение, и теперь работа была показана в веб-интерфейсе.
Когда я попытался остановить текущий автономный кластер, используя stop-cluster , он сказал «кластер не найден».Затем мне пришлось найти pid процессов flink и остановить их вручную.Затем, если я запустил start-cluster для создания нового автономного кластера, я смог нормально отправлять задания.
Сокращенная трассировка стека: (полная трассировка стека на ссылка на Google Docs )
org.apache.flink.client.program.ProgramInvocationException: Could not retrieve the execution result. (JobID: 7ef1cbddb744cd5769297f4059f7c531)
at org.apache.flink.client.program.rest.RestClusterClient.submitJob (RestClusterClient.java:261)
Caused by: org.apache.flink.runtime.client.JobSubmissionException: Failed to submit JobGraph.
Caused by: org.apache.flink.runtime.concurrent.FutureUtils$RetryException: Could not complete the operation. Number of retries has been exhausted. Caused by: java.util.concurrent.CompletionException: org.apache.flink.runtime.rest.ConnectionClosedException: Channel became inactive.
Caused by: org.apache.flink.runtime.rest.ConnectionClosedException: Channel became inactive.
... 37 more
Ошибка соответствует.Это всегда происходит после того, как я позволю Flink работать некоторое время, обычно более 1 месяца).Почему я не могу отправить работу на миг через некоторое время?Что здесь произошло?