Как сделать классификацию текста дает категорию None - PullRequest
0 голосов
/ 10 мая 2019

Я делаю текстовую классификацию для диалектов. После того, как я обучил его 3 типам диалектов, я проверил его на основании имеющихся у меня данных испытаний. Однако теперь предположим, что я собираюсь извлечь твит из твиттера и попросить классификатор вывести соответствующий диалект, но что если твит не был написан ни на одном из этих 3 диалектов? Я предполагаю, что он даст категорию независимо, но это было бы ложно положительным. Поэтому я хочу, чтобы он дал категорию None. Как это сделать? Должен ли я также предоставить данные обучения с метками None?

1 Ответ

1 голос
/ 10 мая 2019

Если вы хотите предсказать новую категорию (в данном случае нет) с тем же классификатором, вы должны предоставить данные обучения, соответствующие этой категории.

Еще одна идея (лучше обсудить здесь: https://stats.stackexchange.com/questions/174856/semi-supervised-classification-with-unseen-classes) - обучить многоклассный классификатор, который назначает предложение одному из диалектов, а затем обучить различные одноклассные классификаторы, по одному для каждого диалекта, что может подтвердить или отрицать предсказания классификатора для нескольких классов.

Пример:
Диалекты A, B, C.

Мультиклассовый классификатор назначает предложение диалекту A.
Одноклассный классификатор для диалекта А классифицирует предложение как диалект А.
Предложение относится к диалекту А.

Мультиклассовый классификатор назначает предложение диалекту A.
Одноклассный классификатор для диалекта A классифицирует предложение как не диалект A.
Приговор принадлежит неизвестному диалекту (нет).

...