Я пытаюсь обучить детектор изображений, используя библиотеки обнаружения объектов Tensorflow и модель ssd_mobilenet_v1_coco.Во время обучения указывается, что контрольная точка сохраняется, однако, когда я проверяю папку, в которой она сохранена, у меня есть только контрольная точка, с которой я начал, и никаких новых пронумерованных.Любая идея, почему это может быть?
Моя версия Tensorflow - 1.12, и я использую Anaconda для управления зависимостями.В настоящее время я использую устаревшие сценарии обучения из-за некоторых ошибок с новым.Я пытался изменить trainer.py, чтобы сохранить максимум десять моделей и сохранять каждые 5 минут, добавив
max_to_keep=10
к заставке и
save_interval_secs=5*60
для slim.learning.train.
К сожалению, это ничего не решило.
Во время обучения я получаю сообщение:
INFO:tensorflow:global step 7669: loss = 4.7803 (6.009 sec/step)
INFO:tensorflow:Saving checkpoint to path ~/tensorflow/parkingmodel/models/model/train/model.ckpt
Но команда ls показывает:
(base) cj@cj-PC:~/tensorflow/parkingmodel/models/model/train$ ls
model.ckpt.data-00000-of-00001 model.ckpt.index model.ckpt.meta
Вот команда, которую я использую для обучения модели
python object_detection/legacy/train.py \
--pipeline_config_path=/home/cj/tensorflow/parkingmodel/models/model/pipeline.config \
--train_dir=~/tensorflow/parkingmodel/models/model/train \
--logtostderr
Я ожидаю найти что-то вроде model.ckpt-7669.index вместе с другими, но вместо этого у меня просто есть значение по умолчаниюиз них.Странно, однако, что если я возобновлю тренировку, она начнется снова с шага, на котором закончилась предыдущая сессия (в данном случае это будет 7669).
Не уверен, что здесь делать дальше.