Я тренирую StyleGAN 2 на своем собственном наборе данных - https://github.com/NVlabs/stylegan2
Он отлично работает на одном P100 в Google Colab, но когда я перемещаю модель на Vast.ai и попробуйте на нескольких GPU, возникает странная проблема.
Все работает до отметки 0, а после отметки 1 все поддельные изображения становятся полностью черными.
Моя среда:
- Tensorflow 1.15
- CUDA 10.0
Моя команда обучения:
python3 run_training.py --num-gpus=4 --data-dir="/root/data/" --config=config-f --dataset=images1_tf --mirror-augment=true --metrics=none
В редких случаях он работает и генерирует правильные подделки, но если я прерву обучение с помощью ^ C и возобновлю его снова, тогда он начнет генерировать все черные изображения.
Я пробовал изменять наборы данных, пробовал это на разных машинах, но проблема не устранена.