Мы выполняли два экземпляра TrainingJob типа (1) ml.p3.8xlarge и (2) ml.p3.2xlarge .
Каждое учебное задание выполняется по собственному алгоритму с Tensorflow и бэкэндом Keras.
Экземпляр (1) работает нормально, а экземпляр (2) после указанного времени обучения 1час при любом входе в CloudWatch (любой текстовый журнал буксировки) завершается с этой ошибкой:
Failure reason
CapacityError: Unable to provision requested ML compute capacity. Please retry using a different ML instance type.
Я не уверен, что означает это сообщение.