Автоматическая маркировка текстовых данных с помощью Amazon Sagemaker - PullRequest
1 голос
/ 27 марта 2019

Какое минимальное количество строк текста необходимо, чтобы наземная правда выполняла автоматическую маркировку?У меня есть текстовый файл, который содержит 1000 строк. Достаточно ли этого, чтобы начать работу с автоматической маркировкой Sagemaker Ground True?

Ответы [ 2 ]

2 голосов
/ 06 апреля 2019

Я менеджер по продукту в команде Amazon SageMaker Ground Truth, и я рад помочь вам с этим вопросом. Минимальное системное требование - 1000 объектов. На практике с классификацией текста мы обычно видим значимые результаты (% от автоматически помеченных данных) только после того, как у вас есть от 2000 до 3000 текстовых объектов. Помните, что производительность варьируется и зависит от вашего набора данных и сложности вашей задачи.

0 голосов
/ 27 марта 2019

Из документации

Вы должны использовать автоматическую маркировку данных только для больших наборов данных. Нейронные сети, используемые при активном обучении, требуют значительного объема данных для каждого нового набора данных. При больших наборах данных появляется больше возможностей для автоматической маркировки данных и, следовательно, снижения общей стоимости маркировки. Мы рекомендуем использовать тысячи объектов данных при использовании автоматической маркировки данных. Вы должны использовать не менее 5000 объектов данных

https://docs.aws.amazon.com/sagemaker/latest/dg/sms-automated-labeling.html

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...