Классификация текста на предопределенные категории - PullRequest
1 голос
/ 26 января 2020

Я пытаюсь классифицировать текстовые данные на несколько категорий. Но в наборе данных могут быть данные, которые не принадлежат ни к одной из определенных категорий.

И после развертывания конечного продукта продукт должен иметь дело с текстовыми данными, которые не относятся к предопределенной категории.

Для реализации этого решения в настоящее время я использую текстовый классификатор SVM. И я планирую определить другую категорию как

"non"

для работы с данными, которые не относятся к предопределенным категориям.

Это правильный подход?

1 Ответ

0 голосов
/ 06 марта 2020

Да, это будет работать. По сути, это дополнительный класс, называемый «non», для которого классификатор научится классифицировать все документы, помеченные как этот класс.

Поэтому, когда вы используете ваш конечный продукт, он попытается классифицировать новые текстовые данные в классы, в том числе «не».

...