Контрольная точка восстановления AI Platform не работает в оценщике train_and_evaluate - PullRequest
0 голосов
/ 12 июня 2019

Я использую AI Platform для обучения модели Tensorflow с использованием Estimator API. Однако, когда модель сохраняет контрольную точку и пытается восстановить контрольную точку, она выдает ошибку tensorflow.python.framework.errors_impl.NotFoundError: Unsuccessful TensorSliceReader constructor: Failed to find any matching files for gs://path/keras/keras_model.ckpt

Похоже, что это проблема с восстановлением графика метаданных в Tensorflow, который является кодом, который входит в настройку сеанса ( TensorFlow, почему после сохранения модели есть 3 файла? ). Однако, поскольку AI Platform абстрагирует это от моей конфигурации, как я могу исправить мою проблему?

1 Ответ

0 голосов
/ 13 июня 2019

Неважно, похоже, что в начале каждого нового запуска задания каталог заданий из предыдущего запуска не удаляется (специально, поэтому я могу одновременно обучать несколько рабочих). Если предыдущий запуск не удался, некоторые контрольные точки не сохраняются должным образом, и это вызывает проблемы для AI Platform.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...