Соотношение между коэффициентами в линейной регрессии и важности признаков в деревьях решений - PullRequest
0 голосов
/ 18 апреля 2019

В последнее время у меня есть проект машинного обучения (ML), который должен определить особенности (входы, a1, a2, a3 ... an), которые оказывают большое влияние на цель / результаты.

Я использовал линейную регрессию для получения коэффициентов объекта и алгоритм деревьев решений (например, Random Forest Regressor) для получения важных объектов (или важности функций).

Правильно ли я понимаю, что признак с большим коэффициентом в линейной регрессии должен быть в числе первых по важности в признаках алгоритма дерева решений?

Ответы [ 2 ]

1 голос
/ 18 апреля 2019

Краткий ответ на ваш вопрос: нет, не обязательно.Учитывая тот факт, что мы не знаем, какие у вас разные входные данные, находятся ли они в одной и той же системе единиц измерения, диапазоне вариаций и т. Д. Я не уверен, почему вы объединили линейную регрессию с деревом решений.Но я просто предполагаю, что у вас есть рабочая модель, скажем, линейная регрессия, которая обеспечивает хорошую точность на тестовом наборе.Из того, что вы спросили, вам, вероятно, нужно взглянуть на анализ чувствительности на основе полученной модели.Я бы предложил почитать библиотеку "SALib" и вообще предмет анализа чувствительности.

1 голос
/ 18 апреля 2019

Не совсем, если ваши входные функции не нормализованы, вы могли бы иметь относительно большой коэффициент для функций с относительно большим средним / стандартным значением.Если ваши функции нормализованы, то да, это может быть индикатором важности функций, но есть и другие вещи, которые следует учитывать.

Вы можете попробовать некоторые классы выбора объектов sklearn, которые должны сделать это автоматически для вас здесь .

...