Наблюдение за SageMaker во время тренировки - PullRequest
0 голосов
/ 16 сентября 2018

Я использую Amazon SageMaker для обучения модели с большим количеством данных.Это занимает много времени - часы или даже дни.В течение этого времени я хотел бы иметь возможность запросить у тренера и увидеть его текущее состояние, в частности:

  • Сколько итераций он уже сделал, и сколько итераций ему еще нужно сделать?(алгоритм обучения - глубокое обучение - он основан на итерациях).
  • Сколько времени нужно для завершения обучения?
  • В идеале, я хотел бы классифицировать тестовый образец, используямодель текущей итерации, чтобы увидеть ее текущую производительность.

Одним из способов сделать это является явное указание тренеру распечатывать отладочные сообщения после каждой итерации.Однако эти сообщения будут доступны только на той консоли, с которой я запускаю трейнер.Поскольку обучение занимает так много времени, я хотел бы иметь возможность запрашивать статус тренера удаленно, с разных компьютеров.

Есть ли способ удаленного запроса статуса работающего тренера?

1 Ответ

0 голосов
/ 17 сентября 2018

Все журналы доступны в Amazon Cloudwatch. Вы можете запросить CloudWatch программно или через API для анализа журналов.

Используете ли вы встроенные алгоритмы или платформу, такую ​​как MXNet или TensorFlow? Для TensorFlow вы можете контролировать свою работу с TensorBoard .

Кроме того, вы можете увидеть статус работы высокого уровня, используя описание учебной работы Вызов API:

import sagemaker
sm_client = sagemaker.Session().sagemaker_client
print(sm_client.describe_training_job(TrainingJobName='You job name here'))
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...