AWS Sagemaker BlazingText Несколько обучающих файлов - PullRequest
3 голосов
/ 12 июня 2019

Попытка выяснить, можно ли использовать несколько файлов для набора данных в Amazon Sagemaker BlazingText.

Я пытаюсь использовать его в режиме классификации текста.

Похоже, что это невозможно, конечно, не в режиме файла, но интересно, поддерживает ли его режим трубы.Я не хочу, чтобы все мои тренировочные данные были в одном файле, потому что, если они генерируются кластером EMR, мне нужно было бы объединить их впоследствии, что неуклюже.

Спасибо!

1 Ответ

1 голос
/ 21 июня 2019

Вы правы в этом режиме файлов не поддерживает несколько файлов (https://docs.aws.amazon.com/sagemaker/latest/dg/blazingtext.html).

Режим "труба" теоретически работает, но есть несколько предостережений:

{"source":"linux ready for prime time ", "label":1}
{"source":"bowled by the slower one ", "label":2}

и затем вы должны передать аргумент _ AttributeNames_ в API createTrainingJob SageMaker (все это объяснено в приведенной выше ссылке).

  • В расширенном манифесте в настоящее время поддерживается только одна метка.

Чтобы использовать режим конвейера, вам нужно изменить задание EMR для создания формата расширенного манифеста, и вы можете использовать только одну метку для каждого предложения.

На данном этапе объединение файлов, сгенерированных вашим заданием EMR, в один файл представляется наилучшим вариантом.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...