Я запускаю модель Tensorflow с ML Engine в Google Cloud, и заставка контрольной точки не может сохранить файлы в корзине. Я использую TensorFlow 1.4 и tf.Estimator
с методом tf.estimator.train_and_evaluate
.
Это записи журнала, где gs://e-trial-central1/models/1530351907.8359423
- аргумент model_dir
, заданный для оценщика:
E master-replica-0 Couldn't match files for checkpoint gs://e-trial-central1/models/1530351907.8359423/.
I master-replica-0 Create CheckpointSaverHook.
I master-replica-0 Restoring parameters from gs://e-trial-central1/models/1530351907.8359423/.
W master-replica-0 Not found: Unsuccessful TensorSliceReader constructor: Failed to find any matching files for gs://e-trial-central1/models/1530351907.8359423/.
W master-replica-0 Not found: Unsuccessful TensorSliceReader constructor: Failed to find any matching files for gs://e-trial-central1/models/1530351907.8359423/.
W master-replica-0 Not found: Unsuccessful TensorSliceReader constructor: Failed to find any matching files for gs://e-trial-central1/models/1530351907.8359423/.
W master-replica-0 Not found: Unsuccessful TensorSliceReader constructor: Failed to find any matching files for gs://e-trial-central1/models/1530351907.8359423/.
W master-replica-0 Not found: Unsuccessful TensorSliceReader constructor: Failed to find any matching files for gs://e-trial-central1/models/1530351907.8359423/.
W master-replica-0 Not found: Unsuccessful TensorSliceReader constructor: Failed to find any matching files for gs://e-trial-central1/models/1530351907.8359423/.
W master-replica-0 Not found: Unsuccessful TensorSliceReader constructor: Failed to find any matching files for gs://e-trial-central1/models/1530351907.8359423/.
W master-replica-0 Not found: Unsuccessful TensorSliceReader constructor: Failed to find any matching files for gs://e-trial-central1/models/1530351907.8359423/.
Вещи, которые я уже пробовал, следуя предложениям из других сообщений ( здесь и здесь ):
- Сохранение в региональном сегменте (us-central1) вместо мультирегионального. Это приводит к той же ошибке.
- Использование более простого пути, который не включает '.' в имени папки. Это приводит к той же ошибке.
- Сохранение в локальном пути, а не в корзину. Это работает! Но я хочу, чтобы файлы в корзине в конце концов.
В отличие от других постов, здесь немного странно, что путь к контрольной точке действительно поврежден. Есть '.' после dir модели вместо шаблона Tensorflow (model.ckpt
).
Кроме того, после сбоя, когда я смотрю в директории модели в корзине, на самом деле там есть файлы - файл событий TF и файлы .index
, .meta
и .data...
, но файлов контрольных точек там нет.
Есть идеи, что вызвало бы это? или что попробовать дальше?
Буду признателен за любую помощь!