Различные методы FS возвращают различные подмножества функций - PullRequest
0 голосов
/ 16 марта 2020

Я новичок в ML, и мне нужно решить задачу выбора функции. У меня есть база данных ~ 45k записей и 57 предикторов. Переменная результата является двоичной. Моя цель - найти стабильный набор предикторов, чтобы понять, какие переменные являются лучшими предикторами. Я следовал этому рабочему процессу: -поиск коррелированных функций (срез = 0,7). В общей сложности 27 функций из 57 были сопоставлены, и я решил удалить их. -Используйте подмножество функций (30) для обучения различных моделей, чтобы получить подмножество функций -Проверьте модель на подмножестве "невидимых данных"

Я использовал пакет "caret" и попробовал следующие алгоритмы: SVM линейный, SLDA, adaBoost, LASSO, ступенчатая регрессия, случайный лес и xgdTree.

Я получил различное подмножество важных функций, и неожиданно некоторые модели дали одинаковые результаты (то есть одно и то же подмножество функций, одинаковое значение) 1) SVM Linear, SLDA (стабилизированный линейный дискриминантный анализ), adaBoost 2) LASSO и Пошаговое 3) Случайный лес, xgbTree

Подводя итог, подмножества объектов В каждой группе одинаковы, подмножества между 3 группами различны.

Мой главный вопрос: как мне решить, какое подмножество особенности лучше? Могу ли я использовать показатели тестирования моделей? Почему подгруппы функций настолько различны между группами? Почему они одинаковы и имеют одинаковое значение в группах?

Спасибо за ваш ответ!

...