Мы пытаемся обучить наши сети в облаке AWS, реализованном с помощью PyTorch. Эти тренинги работают на нашем локальном компьютере с установленным 2 GTX1080ti. Однако когда мы пытаемся использовать NVIDIA AMI с контейнером Pytorch или без него, наши тренинги постоянно привязаны к локальному минимуму.
Мы пробовали несколько вариантов:
Работает с P3.2xlarge или G4dn.xlarge
Использование контейнера NG C или непосредственно на ami.
Копирование баз данных из S3 или смонтировать его из моментального снимка.
- Работа с NVIDIA Ami или Deep Learning ami из AWS
Мы также проверили версии и конфигурации пакета python.
Мы также полностью уверены, что код одинаков как в локальном, так и в облачном хранилище. Версии pytorch и CUDA одинаковы локально и в облаке. Мы протестировали с двумя разными версиями драйверов NVIDIA, с одинаковыми результатами.
Есть ли у кого-то идеи, как это исправить или откуда это может появиться ?
Заранее спасибо!