Question

Мы пытаемся обучить наши сети в облаке AWS, реализованном с помощью PyTorch. Эти тренинги работают на нашем локальном компьютере с установленным 2 GTX1080ti. Однако когда мы пытаемся использовать NVIDIA AMI с контейнером Pytorch или без него, наши тренинги постоянно привязаны к локальному минимуму.

Мы пробовали несколько вариантов:

Работает с P3.2xlarge или G4dn.xlarge
Использование контейнера NG C или непосредственно на ami.
Копирование баз данных из S3 или смонтировать его из моментального снимка.
Работа с NVIDIA Ami или Deep Learning ami из AWS

Мы также проверили версии и конфигурации пакета python.

Мы также полностью уверены, что код одинаков как в локальном, так и в облачном хранилище. Версии pytorch и CUDA одинаковы локально и в облаке. Мы протестировали с двумя разными версиями драйверов NVIDIA, с одинаковыми результатами.

Есть ли у кого-то идеи, как это исправить или откуда это может появиться ?

Заранее спасибо!

Тренировка с pytorch работает локально, но застревает на AWS

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Тренировка с pytorch работает локально, но застревает на AWS

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Нет похожих вопросов