Пользовательский алгоритм обучения на sagemaker - PullRequest
0 голосов
/ 25 мая 2020

с использованием моего собственного алгоритма для обучения модели и после запуска

estimator.fit({'training':'s3://abc/xxx/train.csv','validation':'s3://abc/xxx/val.csv'})

я получаю следующее сообщение: -

2020-05-24 21:08:52 Starting - Starting the training job...
2020-05-24 21:08:54 Starting - Launching requested ML instances...
2020-05-24 21:10:07 Starting - Preparing the instances for training............
2020-05-24 21:12:17 Downloading - Downloading input data
2020-05-24 21:12:17 Training - Downloading the training image.........
2020-05-24 21:14:16 Uploading - Uploading generated training model...
2020-05-24 21:14:22 Completed - Training job completed
..Training seconds: 143
Billable seconds: 43
Managed Spot Training savings: 69.9%

теперь это действительно подозрительно, так как я тренирую модель Берта для 40 эпох, которые невозможно сделать за такое время. Кроме того, я не вижу никаких журналов в Cloudwatch.

что на самом деле здесь происходит? буду очень признателен за любую помощь в этом!

Также, даже когда я запускаю Estimator.fit (), т.е. без ввода каких-либо данных для обучения и данных проверки, он все равно говорит, что обучение завершено . Мой контейнер вообще не вызывается? вывод операторов, упомянутых в моем bash файле

...