AWS Ошибка Sagemaker после успешного обучения «ClientError: ошибка загрузки артефакта: недостаточно места на диске» - PullRequest
0 голосов
/ 06 мая 2020

Я тренирую сеть, используя собственный образ docker. Первое обучение с 50 000 шагов, все прошло нормально, когда я попытался увеличить до 80 000, я получил ошибку: «ClientError: Ошибка загрузки артефакта: недостаточно места на диске», я просто увеличил количество шагов .. это для меня странно. В журнале облачных часов ошибок нет, моя последняя запись:

Графики успешно сгенерированы: ['pipeline.config', 'tflite_graph.pb', 'frozen_inference_graph.pb', 'tflite_graph.pbtxt ',' tflite_quant_graph.tflite ',' saved_model ',' hyperparameters. json ',' label_map.pbtxt ',' model.ckpt.data-00000-of-00001 ',' model.ckpt.meta ',' модель .ckpt.index ',' checkpoint ']

Это в основном означает, что эти файлы были созданы, потому что это просто:

    graph_files = os.listdir(model_path + '/graph')

О каком дисковом пространстве идет речь? Также глядя на задание по обучению, я вижу из диаграммы использования диска, что пиковая кривая роста составляет 80% ... Я ожидаю, что после успешного создания вышеупомянутых файлов все будет загружено в мою корзину s3, где нет проблем с дисковым пространством настоящее время. Почему 50 000 шагов работают, а 80 000 не работают? Насколько я понимаю, количество шагов обучения не влияет на размер файлов модели ..

1 Ответ

0 голосов
/ 07 мая 2020

Добавление размера тома в задание по обучению, выбрав «дополнительный объем хранилища на экземпляр (ГБ)» до 5 ГБ при создании, похоже, решает проблему. Я до сих пор не понимаю почему, но проблема, кажется, решена.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...