Тренировка с pytorch работает локально, но застревает на AWS - PullRequest
0 голосов
/ 10 января 2020

Мы пытаемся обучить наши сети в облаке AWS, реализованном с помощью PyTorch. Эти тренинги работают на нашем локальном компьютере с установленным 2 GTX1080ti. Однако когда мы пытаемся использовать NVIDIA AMI с контейнером Pytorch или без него, наши тренинги постоянно привязаны к локальному минимуму.

Мы пробовали несколько вариантов:

  • Работает с P3.2xlarge или G4dn.xlarge

  • Использование контейнера NG C или непосредственно на ami.

  • Копирование баз данных из S3 или смонтировать его из моментального снимка.

  • Работа с NVIDIA Ami или Deep Learning ami из AWS

Мы также проверили версии и конфигурации пакета python.

Мы также полностью уверены, что код одинаков как в локальном, так и в облачном хранилище. Версии pytorch и CUDA одинаковы локально и в облаке. Мы протестировали с двумя разными версиями драйверов NVIDIA, с одинаковыми результатами.

Есть ли у кого-то идеи, как это исправить или откуда это может появиться ?

Заранее спасибо!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...