Экземпляр вычислений Google Cloud отказывается подключаться с кодом ошибки [1] во время обучения глубокому Con vNet с использованием tenorflow - PullRequest
0 голосов
/ 01 апреля 2020

У меня есть экземпляр механизма облачных вычислений Google (16 процессоров, 1 графический процессор Tesla P100, Google Deep Learning Image).

Экземпляр работал нормально. Но теперь, после попытки обучить довольно большую и глубокую сверточную нейронную сеть, экземпляр отказывается подключаться. На самом деле учебный сценарий выполняется в процессе screen. После закрытия терминала, с которого я управляю экземпляром на моей локальной машине, и попытки повторного подключения через gcloud beta compute, я получаю ERROR: (gcloud.compute.scp) [/usr/bin/scp] exited with return code [1]., и экземпляр просто отказывается подключаться. Также, когда я пытаюсь аутентифицировать себя как пользователя IAM, используя gcloud auth login [IAM-USER], как предложено в этом потоке , ошибка становится ERROR: (gcloud.compute.ssh) [/usr/bin/ssh] exited with return code [255].

Более того, я знаю, что проблема связана с процесс обучения, когда я останавливаю экземпляр (тем самым останавливаю все запущенные процессы) и запускаю его снова, соединение работает отлично, и обучение с использованием меньшей модели не вызывает проблемы.

Любая помощь очень ценится

Спасибо!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...