Почему тензор потока 2 прекращает сохранение контрольной точки в s3 в случайные моменты времени в середине учебной работы? - PullRequest
0 голосов
/ 08 апреля 2020

У меня есть пользовательский сценарий обучения модели python, который использует tf 2 для обучения модели и связи с S3 для сохранения контрольных точек и экспорта окончательной модели. Я использую Docker для контейнерного сценария и развертывания его в кластере Kubernetes, используя Kubeflow. Каким-то образом на случайном этапе обучения tenorflow выдает следующую ошибку:

There was no new checkpoint after the training. Eval status: no new checkpoint ('There was no new checkpoint after the training. Eval status: no new checkpoint',)

Кто-нибудь знает, откуда это может быть? Я в недоумении, пытаясь понять, что здесь пб. Я сделал то же самое, используя один из учебных примеров Kubeflow, и он делает то же самое. Через какое-то время без причины выскакивает та же ошибка ... Спасибо за весь ввод

...