Я работаю над задачей классификации, связанной с письменным текстом, и мне интересно, насколько важно выполнить какую-то процедуру «выбора признаков» для улучшения результатов классификации.
Я использую числофункций (около 40), связанных с предметом, но я не уверен, действительно ли все функции актуальны или нет, и в каких сочетаниях.Я экспериментирую с SVM (scikits) и LDAC (mlpy).
Если у меня есть сочетание релевантных и нерелевантных функций, я предполагаю, что получу плохие результаты классификации.Должен ли я выполнить «процедуру выбора объекта» перед классификацией?
Scikits имеет процедуру RFE, основанную на дереве, которая может ранжировать объекты .Имеет ли смысл ранжировать объекты с помощью RFE на основе дерева, чтобы выбрать наиболее важные функции и выполнить фактическую классификацию с использованием SVM (нелинейного) или LDAC?Или мне следует реализовать какой-нибудь метод-обертку, использующий один и тот же классификатор для ранжирования объектов (попытка классификации по различным группам объектов потребует очень много времени)?