Question

Я хочу использовать выбор функций, чтобы найти в документе термины, которые наиболее полезны для задачи двоичной классификации.

Я искал:
Здесь упоминается Взаимная информация иМетрика квадрата теста
http://nlp.stanford.edu/IR-book/html/htmledition/feature-selection-1.html

MATLAB также имеет ряд функций:
http://www.mathworks.com/help/toolbox/stats/brj0qbu.html
Выбор функции в MATLAB
Из вышеперечисленногоrelieff и rankfeatures выглядят многообещающе.

Я не знаю, соответствуют ли мои данные нормальному распределению.Любые мысли о том, какая техника работает лучше всего?Есть ли более новые методы, которые вы бы предложили?Целью является повышение точности классификации.

Спасибо!

etov · Answer 1 · 23 ноября 2011

Поскольку ответ в значительной степени зависит от характера ваших данных, я бы посоветовал поиграть с несколькими вариантами, возможно, с помощью набора для проверки. Самый простой путь, вероятно, будет использовать Weka или RapidMiner для экспериментов. Выбирая из множества предоставляемых ими вариантов, вы, вероятно, познакомитесь с несколькими другими методами.

Сказав это, я обнаружил, что Взаимная информация / Infogain полезна для решения широкого круга проблем.

Как вы находите наиболее дискриминационные термины в классификации двоичных документов?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как вы находите наиболее дискриминационные термины в классификации двоичных документов?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы