Question

Я тренирую StyleGAN 2 на своем собственном наборе данных - https://github.com/NVlabs/stylegan2

Он отлично работает на одном P100 в Google Colab, но когда я перемещаю модель на Vast.ai и попробуйте на нескольких GPU, возникает странная проблема.

Все работает до отметки 0, а после отметки 1 все поддельные изображения становятся полностью черными.

Моя среда:

Tensorflow 1.15
CUDA 10.0

Моя команда обучения:

python3 run_training.py --num-gpus=4 --data-dir="/root/data/" --config=config-f --dataset=images1_tf --mirror-augment=true --metrics=none

В редких случаях он работает и генерирует правильные подделки, но если я прерву обучение с помощью ^ C и возобновлю его снова, тогда он начнет генерировать все черные изображения.

Я пробовал изменять наборы данных, пробовал это на разных машинах, но проблема не устранена.

user684486 · Answer 1 · 27 августа 2020

У меня была точно такая же проблема с двумя графическими процессорами (карты GTX 1080 8 ГБ в моем случае), работающими с Tensorflow 1.15 и CUDA 10.2 ... Как вы упомянули, он будет тренироваться ровно за 1 тик, а затем все последующие подделки будут чистыми черное изображение. По прихоти я обновил свой драйвер Nvidia с 440 до 450, что также подняло CUDA до 11. Затем он начал работать и генерировать правильные изображения после тика 1.

Изображение StyleGAN 2 полностью черное после отметки 0

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Изображение StyleGAN 2 полностью черное после отметки 0

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы