Я разработал скрипт категоризации текста, очень похожий на пример в главе 6 книги nltk. Я хочу разделить ответы клиентов на такие группы, как «заказ», «выставление счетов» и т. Д.
У меня есть ответы, которые я пометил для использования в качестве учебного набора. Для простоты приведу только два примера данных обучения:
«Заказывать новые продукты легко»: «заказывать»
«Мой счет был неверным»: «биллинг»
После обучения классификатору NB, скажем, я классифицировал следующий документ: «Служба в этой области воняет».
Классификатор присвоит ему метку, будь то заказ или выставление счетов, хотя у него нет слов, которые фигурировали в обучающих данных для обоих, поэтому мне нужно знать, принимать ли результат, если это имеет смысл.
Я посмотрел на _proba_dict и подумал, что смогу использовать это, чтобы определить, было ли это хорошее совпадение или нет, но я действительно не нашел надежного способа его использования. Например, иногда он будет показывать действительно низкие цифры для обеих меток, чего вы и ожидали в этом примере, но в других случаях это не так.
Если сделать еще один шаг вперед, возможно, мы захотим назначить несколько меток одному документу. Подумайте: «Заказывать было легко, а выставление счетов было кошмаром». В этом случае я могу захотеть пометить его как заказ и выставление счетов. Опять же, я подумал, что могу использовать вероятности, чтобы определить, подходит ли более одного ярлыка, но я все еще не вижу, как это сделать.
Любой совет будет принята с благодарностью!
Спасибо
Jon