НЛТК Текст Категоризация доверия Наивный Байес - PullRequest
0 голосов
/ 31 октября 2018

Я разработал скрипт категоризации текста, очень похожий на пример в главе 6 книги nltk. Я хочу разделить ответы клиентов на такие группы, как «заказ», «выставление счетов» и т. Д.

У меня есть ответы, которые я пометил для использования в качестве учебного набора. Для простоты приведу только два примера данных обучения:

«Заказывать новые продукты легко»: «заказывать»

«Мой счет был неверным»: «биллинг»

После обучения классификатору NB, скажем, я классифицировал следующий документ: «Служба в этой области воняет».

Классификатор присвоит ему метку, будь то заказ или выставление счетов, хотя у него нет слов, которые фигурировали в обучающих данных для обоих, поэтому мне нужно знать, принимать ли результат, если это имеет смысл.

Я посмотрел на _proba_dict и подумал, что смогу использовать это, чтобы определить, было ли это хорошее совпадение или нет, но я действительно не нашел надежного способа его использования. Например, иногда он будет показывать действительно низкие цифры для обеих меток, чего вы и ожидали в этом примере, но в других случаях это не так.

Если сделать еще один шаг вперед, возможно, мы захотим назначить несколько меток одному документу. Подумайте: «Заказывать было легко, а выставление счетов было кошмаром». В этом случае я могу захотеть пометить его как заказ и выставление счетов. Опять же, я подумал, что могу использовать вероятности, чтобы определить, подходит ли более одного ярлыка, но я все еще не вижу, как это сделать.

Любой совет будет принята с благодарностью!

Спасибо

Jon

1 Ответ

0 голосов
/ 31 октября 2018

Я думаю, что самый простой способ - добавить третью категорию NONE, которая означает не выставлять счета и не упорядочивать, и добавить несколько предложений в этот класс. Тогда у вас будет проблема с тремя классами, и ваша система сможет решить, если документ не о выставлении счетов или заказе.

Если вы хотите разрешить использование нескольких меток, первым подходом может быть использование классификатора трех классов и установление пороговых значений для вероятностей выставления счетов и упорядочения. Однако это далеко не оптимально.

Если вы хотите сделать истинное предсказание с несколькими метками, у вас есть статья, которая описывает полный конвейер НЛП здесь

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...