Обучение на платформе GCP AI не может использовать полную квоту графического процессора - PullRequest
0 голосов
/ 11 января 2020

На странице GCP -> IAM & admin -> Quotas, служба «GPU NVidia V100 Compute Engine» для us-central1 show Limit is 4. Но когда я отправляю учебное задание на платформе GCP AI с помощью приведенных ниже команд, я получаю ошибка, указывающая, что максимально допустимые графические процессоры V100 равны 2. enter image description here

Вот команда:

gcloud beta ai-platform jobs submit training $JOB_NAME \
    --staging-bucket $PACKAGE_STAGING_PATH \
    --job-dir $JOB_DIR  \
    --package-path $TRAINER_PACKAGE_PATH \
    --module-name $MAIN_TRAINER_MODULE \
    --python-version 3.5 \
    --region us-central1 \
    --runtime-version 1.14 \
    --scale-tier custom \
    --master-machine-type n1-standard-8 \
    --master-accelerator count=4,type=nvidia-tesla-v100 \
    -- \
    --data_dir=$DATA_DIR \
    --initial_epoch=$INITIAL_EPOCH \
    --num_epochs=$NUM_EPOCHS

Вот сообщение об ошибке:

ERROR: (gcloud.beta.ai-platform.jobs.submit.training) RESOURCE_EXHAUSTED: Quota failure for project [PROJECT_ID]. The request for 4 V100 accelerators exceeds the allowed m
aximum of 16 TPU_V2, 16 TPU_V3, 2 P4, 2 V100, 40 K80, 40 P100, 8 T4. To read more about Cloud ML Engine quota, see https://cloud.google.com/ml-engine/quotas.
- '@type': type.googleapis.com/google.rpc.QuotaFailure
  violations:
  - description: The request for 4 V100 accelerators exceeds the allowed maximum of
      16 TPU_V2, 16 TPU_V3, 2 P4, 2 V100, 40 K80, 40 P100, 8 T4.
    subject: [PROJECT_ID]

Вот графические процессоры на веб-странице Compute Engine о том, что 8 графических процессоров NVIDIA® Tesla® V100 доступны в зонах us-central1-a, us-central1-b, us-central1-c и us-central1-f. Моя зона по умолчанию us-central1-c.

Что я должен сделать, чтобы использовать все 4 графических процессора V100 для обучения? Спасибо.

ОБНОВЛЕНИЕ 1 (14.01.2020): На этой странице говорится что-то о глобальной квоте GPU, которую нужно увеличить, чтобы соответствовать квоте на регион. Но я не смог найти его нигде на странице квот.

Для защиты систем и пользователей Compute Engine новые проекты имеют глобальную квоту графического процессора, которая ограничивает общее количество графических процессоров, которые вы можете создать в любом поддерживаемая зона. Когда вы запрашиваете квоту графического процессора, вы должны запросить квоту для моделей графического процессора, которые вы хотите создать в каждом регионе, и дополнительную глобальную квоту для общего числа графических процессоров всех типов во всех зонах.

Обновление 2 (14.01.2020): я связался с GCP, чтобы увеличить глобальную квоту графического процессора для соответствия квоте моего региона. Они ответили, что для некоторых проектов это необходимо, но для моего проекта нет необходимости это делать.

1 Ответ

0 голосов
/ 31 января 2020

Эта ссылка на документацию может пролить свет на вашу ошибку:

"Графические процессоры, которые вы используете для прогнозирования, не учитываются как графические процессоры для Compute Engine, а квота для обучения на платформе AI не дает вам доступа ни к каким виртуальным машинам Compute Engine, использующим графические процессоры. Если вы хотите раскрутить виртуальную машину Compute Engine с помощью графического процессора, вы должны запросить квоту на графический процессор Compute Engine, как описано в документации к вычислительному механизму. "

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...