Вы можете попытаться уменьшить размерность задачи с помощью PCA или аналогичного метода. Помните, что у PCA есть два важных момента. (1) Предполагается, что данные, к которым он применяется, нормально распределены, и (2) результирующие данные теряют свое естественное значение (в результате чего появляется черный ящик). Если вы можете жить с этим, попробуйте.
Другой вариант - попробовать несколько алгоритмов выбора параметров. Поскольку SVM уже упоминались здесь, вы можете попробовать подход Чанга и Ли ( Ранжирование функций с использованием линейного SVM ), в котором они использовали линейный SVM для предварительного выбора «интересных функций», а затем использовали SVM на основе RBF на выбранные функции. Если вы знакомы с Orange, библиотекой интеллектуального анализа данных Python , вы сможете закодировать этот метод менее чем за час. Обратите внимание, что это жадный подход, который из-за своей «жадности» может потерпеть неудачу в случаях, когда входные переменные сильно коррелированы. В этом случае, и если вы не можете решить эту проблему с помощью PCA (см. Выше), вы можете перейти к эвристическим методам, которые пытаются выбрать наилучшие возможные комбинации предикторов. Основной ловушкой такого подхода является высокий потенциал переоснащения. Убедитесь, что у вас есть куча «девственных» данных, которые не были видны в течение всего процесса построения модели. Протестируйте вашу модель на этих данных только один раз, после того как вы убедитесь, что модель готова. Если вы потерпите неудачу, не используйте эти данные еще раз для проверки другой модели, вам придется найти новый набор данных. В противном случае вы не будете уверены, что вы не переоделись еще раз.
Список выбранных работ по выбору параметров:
Выбор характеристик для данных по многомерным геномным микрочипам
О, и еще одна вещь о SVM. SVM - это черный ящик. Вы лучше выясните, что такое механизм, который генерирует данные, и смоделируйте механизм, а не данные. С другой стороны, если бы это было возможно, скорее всего, вы бы здесь не задавали этот вопрос (и я бы не стал так огорчаться из-за переоснащения).
Список выбранных документов по выбору параметров
- Выбор характеристик для данных по многомерным геномным микрочипам
- Упаковщики для выбора подмножества функций
- Выбор параметров при оптимизации роя частиц
- Я работал в лаборатории, которая разработала этот Стохастический метод для определения, in silico, наркотического характера молекул