Обнаружение объекта Tensorflow неправильно сохраняет контрольные точки - PullRequest
0 голосов
/ 31 марта 2019

Я пытаюсь обучить детектор изображений, используя библиотеки обнаружения объектов Tensorflow и модель ssd_mobilenet_v1_coco.Во время обучения указывается, что контрольная точка сохраняется, однако, когда я проверяю папку, в которой она сохранена, у меня есть только контрольная точка, с которой я начал, и никаких новых пронумерованных.Любая идея, почему это может быть?

Моя версия Tensorflow - 1.12, и я использую Anaconda для управления зависимостями.В настоящее время я использую устаревшие сценарии обучения из-за некоторых ошибок с новым.Я пытался изменить trainer.py, чтобы сохранить максимум десять моделей и сохранять каждые 5 минут, добавив

max_to_keep=10

к заставке и

save_interval_secs=5*60

для slim.learning.train.

К сожалению, это ничего не решило.

Во время обучения я получаю сообщение:

INFO:tensorflow:global step 7669: loss = 4.7803 (6.009 sec/step)
INFO:tensorflow:Saving checkpoint to path ~/tensorflow/parkingmodel/models/model/train/model.ckpt

Но команда ls показывает:

(base) cj@cj-PC:~/tensorflow/parkingmodel/models/model/train$ ls
model.ckpt.data-00000-of-00001  model.ckpt.index  model.ckpt.meta

Вот команда, которую я использую для обучения модели

python object_detection/legacy/train.py \
--pipeline_config_path=/home/cj/tensorflow/parkingmodel/models/model/pipeline.config \
--train_dir=~/tensorflow/parkingmodel/models/model/train \
--logtostderr

Я ожидаю найти что-то вроде model.ckpt-7669.index вместе с другими, но вместо этого у меня просто есть значение по умолчаниюиз них.Странно, однако, что если я возобновлю тренировку, она начнется снова с шага, на котором закончилась предыдущая сессия (в данном случае это будет 7669).

Не уверен, что здесь делать дальше.

...