Google Cloud Job отправляет обучение застревает - PullRequest
0 голосов
/ 11 июня 2018

Здравствуйте, когда я настроил обучение на облачной машине Google для обучения нейронной сети, внезапно я не могу отправить задания в облако Google.

Нет ошибки, но команда зависает там, ничего не делая, такжеМой экземпляр работает. Вот команда:

gcloud ml-engine jobs submit training job9123 --runtime-version 1.0 --job-dir gs://dataset1_giorgaros2 --package-path trainmodule  --module-name trainmodule.nncloud --region europe-west1 --config cloudml-gpu.yaml -- --train-file gs://dataset1_giorgaros2/nnn.p

Спасибо!

Ответы [ 2 ]

0 голосов
/ 11 августа 2018

Журналы заданий механизма ML могут помочь получить более подробную информацию о невыполненном выполнении задания, в большинстве случаев файл журнала содержит причину сбоя.

Поиск журналов заданий в движке ML

Если вы выполняете одну и ту же команду каждый раз во время выполнения учебного задания, возможно, вы получаете сообщение об ошибке в названии задания, так как имя должно быть уникальным для каждого задания в движке MLкак это описано в правилах соглашения об именах для заданий двигателя ML.

Соглашение об имени двигателя ML

0 голосов
/ 11 июня 2018

Попробуйте проверить сетевое подключение к Google Compute Engine.

Проверка журналов из прогона - https://console.cloud.google.com/

И, конечно же, прочитайте документы: https://cloud.google.com/sdk/gcloud/reference/ml-engine/jobs/submit/training

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...