Google Cloud ML: повторяется «Попытка обновления для получения начального access_token», затем «Задание не выполнено» - PullRequest
0 голосов
/ 02 июля 2019

Я пытаюсь запустить учебную работу на Google Cloud ML Engine. Я отправляю работу, используя

gcloud ml-engine jobs submit training `whoami`_object_detection_`date +%s` \
--job-dir=gs://${YOUR_GCS_BUCKET}/train \
--packages dist/object_detection-0.1.tar.gz,slim/dist/slim-0.1.tar.gz,/tmp/pycocotools/pycocotools-2.0.tar.gz \
--module-name object_detection.model_tpu_main \
--runtime-version 1.13 \
--scale-tier BASIC_TPU \
--region us-central1 \
-- \
--model_dir=gs://${YOUR_GCS_BUCKET}/train \
--tpu_zone us-central1 \
--pipeline_config_path=gs://${YOUR_GCS_BUCKET}/data/pipeline.config

Однако после того, как задание создано и все необходимые пакеты установлены, я начинаю неоднократно получать эти сообщения:

enter image description here

до тех пор, пока задание не завершится с этим выводом:

* +1012 *enter image description here

Я уже пробовал это , это и это без какого-либо успеха.

Полагаю, проблема связана с аутентификацией, поэтому я следовал этому учебнику , но это не помогло.

Любая помощь очень ценится!

1 Ответ

1 голос
/ 03 июля 2019

Похоже, что есть некоторые проблемы с распределением TPU.Я решил проблему, изменив TPU на GPU, поэтому команда для отправки задания изменилась на

gcloud ml-engine jobs submit training `whoami`_object_detection_`date +%s` \
--job-dir=gs://${YOUR_GCS_BUCKET}/train \
--packages dist/object_detection-0.1.tar.gz,slim/dist/slim-0.1.tar.gz,/tmp/pycocotools/pycocotools-2.0.tar.gz \
--module-name object_detection.model_main \
--runtime-version 1.13 \
--scale-tier BASIC_GPU \
--region us-central1 \
-- \
--model_dir=gs://${YOUR_GCS_BUCKET}/train \
--pipeline_config_path=gs://${YOUR_GCS_BUCKET}/data/pipeline.config

ОБНОВЛЕНИЕ

Я связался с @Yash Sonthalia, поскольку онпопросил меня сделать.Очень скоро проблема была решена.Спасибо!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...