Выбор функций в MATLAB - PullRequest
       50

Выбор функций в MATLAB

6 голосов
/ 12 декабря 2010

У меня есть набор данных для классификации текста, готовый для использования в MATLAB. Каждый документ является вектором в этом наборе данных, и размерность этого вектора чрезвычайно высока. В этих случаях peopl обычно выбирает некоторые функции для векторов, подобных тем, которые у вас есть на самом деле, набор инструментов WEKA. Есть ли что-нибудь подобное в MATLAB? Если не можете предложить и алгоритм для меня, чтобы сделать это ...? спасибо

Ответы [ 3 ]

12 голосов
/ 12 декабря 2010

MATLAB (и его наборы инструментов) включают в себя ряд функций, связанных с выбором функций:

  • RANDFEATURES (Биоинформатический инструментарий): генерировать рандомизированное подмножество объектов, управляемых классификатором
  • RANKFEATURES (набор инструментов для биоинформатики): ранжирование элементов по критериям разделения классов
  • SEQUENTIALFS (Панель инструментов статистики): последовательный выбор функции
  • RELIEFF (Панель инструментов статистики): алгоритм Relief-F
  • TREEBAGGER.OOBPermutedVarDeltaError , ForextorImportance (Панель инструментов статистики): Использование методов ансамбля (деревья решений в пакетах)

Вы также можете найти примеры, демонстрирующие использование на реальных наборах данных:

Кроме того, существуют сторонние наборы инструментов:

В противном случае вы всегда можете вызывать ваши любимые функции из WEKA напрямую из MATLAB, поскольку он включает JVM ...

1 голос
/ 13 декабря 2010

Вы можете рассмотреть возможность использования метода независимых функций Вейса и Куликовского для быстрого устранения переменных, которые явно не имеют значения:

http://matlabdatamining.blogspot.com/2006/12/feature-selection-phase-1-eliminate.html

1 голос
/ 12 декабря 2010

Выбор функции зависит от конкретной задачи, которую вы хотите выполнить с текстовыми данными.

Одним из самых простых и грубых методов является использование анализа основных компонентов (PCA) для уменьшения размеров данных.Эти данные уменьшенного размера могут использоваться непосредственно в качестве признаков для классификации.

См. Учебное пособие по использованию PCA здесь:

http://matlabdatamining.blogspot.com/2010/02/principal-components-analysis.html

Вот ссылка на команду Matlab PCAhelp:

http://www.mathworks.com/help/toolbox/stats/princomp.html

Используя полученные особенности, для классификации можно использовать хорошо известные машины опорных векторов (SVM).

http://www.mathworks.com/help/toolbox/bioinfo/ref/svmclassify.html http://www.autonlab.org/tutorials/svm.html

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...