У меня есть экземпляр механизма облачных вычислений Google (16 процессоров, 1 графический процессор Tesla P100, Google Deep Learning Image).
Экземпляр работал нормально. Но теперь, после попытки обучить довольно большую и глубокую сверточную нейронную сеть, экземпляр отказывается подключаться. На самом деле учебный сценарий выполняется в процессе screen
. После закрытия терминала, с которого я управляю экземпляром на моей локальной машине, и попытки повторного подключения через gcloud beta compute
, я получаю ERROR: (gcloud.compute.scp) [/usr/bin/scp] exited with return code [1].
, и экземпляр просто отказывается подключаться. Также, когда я пытаюсь аутентифицировать себя как пользователя IAM, используя gcloud auth login [IAM-USER]
, как предложено в этом потоке , ошибка становится ERROR: (gcloud.compute.ssh) [/usr/bin/ssh] exited with return code [255]
.
Более того, я знаю, что проблема связана с процесс обучения, когда я останавливаю экземпляр (тем самым останавливаю все запущенные процессы) и запускаю его снова, соединение работает отлично, и обучение с использованием меньшей модели не вызывает проблемы.
Любая помощь очень ценится
Спасибо!