Как определить большинство связанных параметров в статистическом моделировании - PullRequest
0 голосов
/ 14 февраля 2019

У меня есть данные о компании автомехаников, которые позволяют механикам подавать заявки на их сбор на фрилансе.

У меня есть предыдущая история работы механиком, и на основе этих исторических данных я хочу рекомендовать механикам наилучшее возможное местоположение, чтобы он мог получить хорошую работу, и компания получила максимальное признание.

Я вручную проверил различные параметры, такие как location_ID, lang, lat местоположения задания, mechanic_Exp_years, open_position, mechanic_specialization и т. Д.

Также пытался увидеть отношение, используя диаграмму, подобную этой

https://imgur.com/a/jxmTXty

Я добавляю ссылку, потому что не могу загрузить изображение из-за менее чем 10 баллов

Существует ли какая-либо стандартная методика, которая может статистически утверждать, что из этих 100 параметров эти параметры хорошибыть рассмотренным для прогнозирования / обучения?

Любая ссылка ссылка или библиотека высоко ценится.Я проверил много статей, но не повезло

1 Ответ

0 голосов
/ 14 февраля 2019

Есть много способов сделать это.Если вы используете python, я бы порекомендовал модуль FeatureSelection scikit-learn.Есть много методов в списке, но я выбрал бы Рекурсивное исключение функций или короткое RFE.RFE работает путем рекурсивного удаления атрибутов и построения модели на тех атрибутах, которые остаются.Он использует точность модели, чтобы определить, какие атрибуты (и комбинации атрибутов) вносят наибольший вклад в прогнозирование целевого атрибута.

Кроме того, вы также можете попытаться использовать PCA (анализ основных компонентов) для сокращения ваших возможностей.только полезные, которые приносят информацию в вашу модель.

...