Как вы находите наиболее дискриминационные термины в классификации двоичных документов? - PullRequest
1 голос
/ 26 октября 2011

Я хочу использовать выбор функций, чтобы найти в документе термины, которые наиболее полезны для задачи двоичной классификации.

Я искал:
Здесь упоминается Взаимная информация иМетрика квадрата теста
http://nlp.stanford.edu/IR-book/html/htmledition/feature-selection-1.html

MATLAB также имеет ряд функций:
http://www.mathworks.com/help/toolbox/stats/brj0qbu.html
Выбор функции в MATLAB
Из вышеперечисленногоrelieff и rankfeatures выглядят многообещающе.

Я не знаю, соответствуют ли мои данные нормальному распределению.Любые мысли о том, какая техника работает лучше всего?Есть ли более новые методы, которые вы бы предложили?Целью является повышение точности классификации.

Спасибо!

1 Ответ

1 голос
/ 23 ноября 2011

Поскольку ответ в значительной степени зависит от характера ваших данных, я бы посоветовал поиграть с несколькими вариантами, возможно, с помощью набора для проверки. Самый простой путь, вероятно, будет использовать Weka или RapidMiner для экспериментов. Выбирая из множества предоставляемых ими вариантов, вы, вероятно, познакомитесь с несколькими другими методами.

Сказав это, я обнаружил, что Взаимная информация / Infogain полезна для решения широкого круга проблем.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...