Просматривая опубликованный вами пример, кажется, что model_dir
, переданный в пакет обнаружения объектов TensorFlow, настроен на /opt/ml/model
:
# These are the paths to where SageMaker mounts interesting things in your container.
prefix = '/opt/ml/'
input_path = os.path.join(prefix, 'input/data')
output_path = os.path.join(prefix, 'output')
model_path = os.path.join(prefix, 'model')
param_path = os.path.join(prefix, 'input/config/hyperparameters.json')
В процессе обучения журналы тензорной доски будут записывается в /opt/ml/model
, а затем загружается в s3 как окончательный артефакт модели ПОСЛЕ обучения: https://docs.aws.amazon.com/sagemaker/latest/dg/your-algorithms-training-algo-envvariables.html.
Вы могли бы отодвинуть Шаг загрузки артефакта SageMaker и направьте model_dir
API обнаружения объектов TensorFlow непосредственно в местоположение s3 во время обучения:
model_path = "s3://your-bucket/path/here
Это означает, что библиотека TensorFlow в задании SageMaker напрямую записывает в S3 вместо файловая система внутри контейнера. Предполагая, что базовый код обнаружения объектов TensorFlow может писать непосредственно в S3 (что вам нужно будет проверить), вы сможете видеть журналы тензорной платы и контрольные точки там в реальном времени.