Самый простой алгоритм выбора функции - PullRequest
7 голосов
/ 07 марта 2011

Я пытаюсь создать свой собственный и простой алгоритм выбора функции.Набор данных, с которым я собираюсь работать, это здесь (очень известный набор данных).Может кто-нибудь дать мне указатель о том, как это сделать?

Я планирую написать алгоритм ранжирования объектов для классификации текста.Это для анализа настроений в обзорах фильмов, классифицирующих их как положительные или отрицательные.

Поэтому мой вопрос заключается в том, как написать простой выбор функции для набора текстовых данных.

Ответы [ 4 ]

3 голосов
/ 07 марта 2011

Методы выбора функций - большая тема. Вы можете начать со следующего:

  1. Чи квадрат

  2. Взаимная информация

  3. Срок частоты

и т.д.. Прочтите эту статью, если у вас есть время: Сравнительное исследование по выбору функций в категоризации текста Это вам очень поможет.

Фактическая реализация зависит от того, как вы предварительно обрабатываете данные. В основном, он ведет подсчет, будь то хеш-таблица или база данных.

2 голосов
/ 11 мая 2012

Случайные функции работают хорошо, когда вы строите ансамбли.Это известно как функциональная упаковка.

0 голосов
/ 01 февраля 2015

Я сейчас использую этот подход:

рассчитать среднее значение и дисперсию данных для каждого класса. Хороший кандидат должен иметь небольшую дисперсию, а среднее значение должно отличаться от средних значений других классов.

В настоящее время, имея только <50 функций, я выбираю их вручную. Для автоматизации этого процесса можно рассчитать дисперсии средних значений <strong>среди всех классов и дать более высокий приоритет тем, которые имеют большую дисперсию. Затем выберите сначала те, которые имеют меньшую дисперсию в пределах одного класса.

Конечно, это не удаляет избыточные функции.

0 голосов
/ 07 марта 2011

Вот один из вариантов: используйте точечная взаимная информация .Ваши функции будут токенами, а информация должна сравниваться с ярлыком настроения.Будьте осторожны с частыми словами (стоп-словами), потому что в этом типе задач они действительно могут быть полезны.

...