Sagemaker: постоянная ошибка подгонки после одной неудачной подгонки - PullRequest
0 голосов
/ 30 сентября 2019

Я реализую несколько примеров Sagemaker SKLearn: https://github.com/awslabs/amazon-sagemaker-examples/tree/master/sagemaker-python-sdk/scikit_learn_iris https://github.com/awslabs/amazon-sagemaker-examples/tree/master/sagemaker-python-sdk/scikit_learn_randomforest

Я могу успешно запустить их, и все в порядке. Однако, если я намеренно внесу ошибку в файл .py обучающего скрипта, например, добавив import boto3, что завершится ошибкой, так как boto3 не установлен на образе обучающего докера, то для примера с радужной оболочкой я получу ошибку

UnexpectedStatusException: Error for Training job sagemaker-scikit-learn-2019-09-30-05-13-53-184: Failed. Reason: AlgorithmError: ExecuteUserScriptError:
Command "/usr/bin/python3 -m train --max_leaf_nodes 30"

и аналогичная ошибка для примера random_forest. Это все хорошо.

Чего я не понимаю, так это того, что когда я удаляю некорректную строку кода из сценария, возвращаясь точно к коду, который уже был успешно выполнен, я получаю ту же ошибку.

Я попытался остановить и перезапустить экземпляр ноутбука, но ошибка остается.

...