Question

Мы выполняли два экземпляра TrainingJob типа (1) ml.p3.8xlarge и (2) ml.p3.2xlarge .

Каждое учебное задание выполняется по собственному алгоритму с Tensorflow и бэкэндом Keras.

Экземпляр (1) работает нормально, а экземпляр (2) после указанного времени обучения 1час при любом входе в CloudWatch (любой текстовый журнал буксировки) завершается с этой ошибкой:

Failure reason
CapacityError: Unable to provision requested ML compute capacity. Please retry using a different ML instance type.

Я не уверен, что означает это сообщение.

Harish Panwar · Answer 1 · 12 декабря 2018

Это сообщение означает, что SageMaker пытался запустить экземпляр, но у EC2 не было достаточной емкости этого экземпляра, поэтому после ожидания в течение некоторого времени (в данном случае 1 час) SageMaker сдался и провалил учебное задание.

Для получения дополнительной информации о проблеме емкости от ec2, пожалуйста, посетите: устранение неполадок-запуск-емкость

Чтобы решить эту проблему, вы можете либо попробовать запустить задания с другим типом экземпляра, как предложено по причине сбоя, либо подождатьчерез несколько минут, а затем снова отправьте запрос, как предложено EC2.

AWS SageMaker: CapacityError: Невозможно предоставить запрошенную вычислительную мощность ML.

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

AWS SageMaker: CapacityError: Невозможно предоставить запрошенную вычислительную мощность ML.

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы