Использование TPU на GKE: ошибка, записанная с подачи: гнездо закрыто - PullRequest
1 голос
/ 16 мая 2019

Время от времени наша учебная работа на базе GKE TPUEstimator с использованием TPU дает сбой:

Error recorded from infeed: Socket closed
An error was raised. This may be due to a preemption in a connected worker or parameter server. The current session will be closed and a new session will be created. This error may also occur due to a gRPC failure caused by high memory or network bandwidth usage in the parameter servers. If this error occurs repeatedly, try increasing the number of parameter servers assigned to the job. Error: Socket closed

У меня есть два вопроса по этому поводу:

  1. Что здесь происходит? Я проверил использование памяти стручков, и это не всплеск. ТПУ, выделенный для стручка, все еще там.
  2. Работа не всегда вызывает ошибку в модуле. Он продолжает отображаться как работающий, пока кто-то не проверит состояние вручную, а затем не предпримет действия для его перезапуска. Можно ли сделать так, чтобы он всегда автоматически перезагружался?
...