Модель ML не сохраняется правильно? - PullRequest
0 голосов
/ 15 февраля 2020

Я пытаюсь сохранить свою модель после каждой 10-й и моей последней эпохи, но я получаю сообщение о тензорном потоке в каждую сохраненную эпоху. При попытке загрузить сохраненную модель выдается ошибка. Это происходит только тогда, когда я использую обучение мульти-GPU. Когда я использую один GPU для обучения, я не получаю сообщения о тензорном потоке в каждой сохраненной эпохе. Я заметил, что рядом с индикатором выполнения модель multi-gpu показывает 8/7, и сообщение приходит прямо перед окончанием эпохи.

Означает ли это, что модель сохраняется раньше, чем завершится эпоха? Если это так, что может привести к раннему сохранению модели?

код сохранения:

model_checkpoint = ModelCheckpoint('unet_{epoch:04}.model', monitor=observe_var, save_best_only = False, period = 10)
model.fit(train_x, train_y, batch_size = 2, epochs = 600, verbose = 1, shuffle = True, validation_split = .2, callbacks = [model_checkpoint]) 
model.save('unet_final.model')

распечатка блокнота Jupyter с мульти-GPU:

Epoch 10/600
6/7 [========================>.....] - ETA: 1s - loss: -0.1712 - dice_coef: 0.1712WARNING:tensorflow:From /home/diablo-redhat/anaconda3/envs/gputest/lib/python3.7/site-packages/tensorflow_core/python/ops/resource_variable_ops.py:1781: calling BaseResourceVariable.__init__ (from tensorflow.python.ops.resource_variable_ops) with constraint is deprecated and will be removed in a future version.
Instructions for updating:
If using Keras pass *_constraint arguments to layers.
INFO:tensorflow:Assets written to: models/unet_0010.model/assets
8/7 [==================================] - 15s 2s/sample - loss: -0.1670 - dice_coef: 0.1670 - val_loss: -0.1628 - val_dice_coef: 0.1628

распечатка блокнота Jupyter с однопроцессорным:

Epoch 10/600
7/7 [==================================] - 13s 2s/sample - loss: -0.1554 - dice_coef: 0.1554 - val_loss: -0.1661 - val_dice_coef: 0.1661

ошибка при загрузке модели:

FailedPreconditionError: Error while reading resource variable conv3d/kernel_23175 from Container: localhost. This could mean that the variable was uninitialized. Not found: Resource localhost/conv3d/kernel_23175/class tensorflow::Var does not exist. [Op:ReadVariableOp]
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...