НЛП МЛ Как узнать вес слов, используемых в классификаторе текста? - PullRequest
0 голосов
/ 24 ноября 2018

Я создаю классификатор твитов, в котором я пытаюсь обучать разные модели ML, чтобы классифицировать твиты из 2 разных аккаунтов твиттеров.Пока у меня есть модель логистической регрессии, K Neighbours Classifier и классификатор дерева решений.

Есть ли способ узнать, какие слова в твитах эти классификаторы использовали для предсказания аккаунта?как вес слов в процессе классификации ??Я открыт для обучения новых классификаторов, которые также могут это делать.

Уже был проведен анализ ngram для твитов, таких как частота слов.

заранее спасибо!

1 Ответ

0 голосов
/ 25 ноября 2018

Есть много способов, но они зависят от классификатора.Поскольку вы пометили это nltk, я предполагаю, что вы используете классификаторы nltk.Допустим, вы обучили NaiveBayesClassifier заданию по классификации.У обученного классификатора есть метод most_informative_features(), который покажет вам особенности (слова) с наибольшей корреляцией с какой-либо категорией.Вы можете попросить показать столько функций, сколько вам нужно.

Если память служит, несколько классификаторов nltk имеют эквивалентные методы;но вам придется искать те, которые вы используете.В более общем смысле вы можете изучить внутренние таблицы любого классификатора и изучить код, чтобы понять, что означают числа.(Это очень поможет, если вы поймете алгоритм, прежде чем смотреть на код.)

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...