Ошибка при сохранении контрольных точек в корзину Google Cloud - PullRequest
0 голосов
/ 30 июня 2018

Я запускаю модель Tensorflow с ML Engine в Google Cloud, и заставка контрольной точки не может сохранить файлы в корзине. Я использую TensorFlow 1.4 и tf.Estimator с методом tf.estimator.train_and_evaluate.

Это записи журнала, где gs://e-trial-central1/models/1530351907.8359423 - аргумент model_dir, заданный для оценщика:

E  master-replica-0 Couldn't match files for checkpoint gs://e-trial-central1/models/1530351907.8359423/. 
I  master-replica-0 Create CheckpointSaverHook.  
I  master-replica-0 Restoring parameters from gs://e-trial-central1/models/1530351907.8359423/. 
W  master-replica-0 Not found: Unsuccessful TensorSliceReader constructor: Failed to find any matching files for gs://e-trial-central1/models/1530351907.8359423/. 
W  master-replica-0 Not found: Unsuccessful TensorSliceReader constructor: Failed to find any matching files for gs://e-trial-central1/models/1530351907.8359423/. 
W  master-replica-0 Not found: Unsuccessful TensorSliceReader constructor: Failed to find any matching files for gs://e-trial-central1/models/1530351907.8359423/. 
W  master-replica-0 Not found: Unsuccessful TensorSliceReader constructor: Failed to find any matching files for gs://e-trial-central1/models/1530351907.8359423/. 
W  master-replica-0 Not found: Unsuccessful TensorSliceReader constructor: Failed to find any matching files for gs://e-trial-central1/models/1530351907.8359423/. 
W  master-replica-0 Not found: Unsuccessful TensorSliceReader constructor: Failed to find any matching files for gs://e-trial-central1/models/1530351907.8359423/. 
W  master-replica-0 Not found: Unsuccessful TensorSliceReader constructor: Failed to find any matching files for gs://e-trial-central1/models/1530351907.8359423/. 
W  master-replica-0 Not found: Unsuccessful TensorSliceReader constructor: Failed to find any matching files for gs://e-trial-central1/models/1530351907.8359423/. 

Вещи, которые я уже пробовал, следуя предложениям из других сообщений ( здесь и здесь ):

  1. Сохранение в региональном сегменте (us-central1) вместо мультирегионального. Это приводит к той же ошибке.
  2. Использование более простого пути, который не включает '.' в имени папки. Это приводит к той же ошибке.
  3. Сохранение в локальном пути, а не в корзину. Это работает! Но я хочу, чтобы файлы в корзине в конце концов.

В отличие от других постов, здесь немного странно, что путь к контрольной точке действительно поврежден. Есть '.' после dir модели вместо шаблона Tensorflow (model.ckpt). Кроме того, после сбоя, когда я смотрю в директории модели в корзине, на самом деле там есть файлы - файл событий TF и ​​файлы .index, .meta и .data..., но файлов контрольных точек там нет.

Есть идеи, что вызвало бы это? или что попробовать дальше?

Буду признателен за любую помощь!

1 Ответ

0 голосов
/ 06 июля 2018

Эта проблема была решена путем перехода на более новую версию Tensorflow (1.8).

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...