SageMaker RCF Data - PullRequest
       36

SageMaker RCF Data

0 голосов
/ 18 октября 2018

У меня есть таблица DynamoDB, заполненная хорошими данными.Я использую Datapipeline для извлечения этого в S3, и он генерирует папку с 3 файлами.

1) "139xx-x911-407x-83xx-06x5x659xx16", которая содержит все данные БД в этом формате:

{"TimeStamp":{"s":"1539699960"},"SystemID":{"n":"1001"},"AccMin":{"n":"497"},"AccMax":{"n":"509"},"CustomerID":{"n":"10001"},"SensorID":{"n":"101"}}

2) "manifest"

{"name":"DynamoDB-export","version":3,
entries: [
{"url":"s3://cxxxx/2018-10-18-15-25-02/139xx-x911-407x-83xx-06x5x659xx16","mandatory":true}
]}

3) "_SUCCESS" Внутри нет данных.

Затем я перехожу в SageMaker -> Учебные задания -> Создать учебное задание.Здесь я заполняю все, чтобы создать модель Random Cut Forest, и указываю ее на приведенные выше данные (я пробовал и файл манифеста, и больший файл данных. Обучение завершается ошибкой:

"ClientError: Данные не найдены. Пожалуйста, убедитесь, что данные обучения предоставлены. "

Что я делаю не так?

1 Ответ

0 голосов
/ 23 октября 2018

Благодарим Вас за интерес, проявленный к SageMaker.

Манифест не является обязательным, но при наличии он должен соответствовать схеме, описанной в https://docs.aws.amazon.com/sagemaker/latest/dg/API_S3DataSource.html.Кроме того, RandomCutForest не поддерживает входные данные в формате JSON.Поддерживаются только protobuf и CSV, см. https://docs.aws.amazon.com/sagemaker/latest/dg/randomcutforest.html

Чтобы начать обучение, необходимо преобразовать входные данные в формат CSV или protobuf и соответствующим образом установить значение content_type.Если вы хотите использовать файл манифеста, то местоположение S3 должно указывать на этот файл, и контекст должен быть зафиксирован для соответствия схеме.Однако вы можете удалить манифест и указать точку S3 для s3: //bucket/path/to/data/.

Надеюсь, это поможет.

С уважением, Юрий

...