Подходы к определению значимости коэффициентов регрессии sklearn logisti c - PullRequest
0 голосов
/ 06 мая 2020

Я использую logisti c регрессию в sklearn для двоичной классификации [95 образцов, каждый с 3368 функциями]

log_reg_model = LogisticRegression(solver = 'liblinear')

Модель на удивление дает хорошие результаты, и я пытаюсь понять значение коэффициентов.

Я понимаю, что есть 2 подхода для получения p-значений для коэффициентов -

  1. Получить p-значения коэффициента, используя подход, упомянутый в ответе JARH на Найдите p-значение (значимость) в scikit-learn LinearRegression , заменив MSE на функцию стоимости, упомянутую для Logisti c Регрессия в https://scikit-learn.org/stable/modules/linear_model.html
  2. Используйте bootstrap, и получить распределение каждого коэффициента и получить доверительные интервалы / p-значение

Действительны ли оба подхода? Есть ли между ними какая-то значительная разница? Было бы очень полезно, если бы вы могли указать мне на любые ссылки, показывающие разницу между двумя подходами

(я пробовал использовать "statsmodels.api.Lo git", но это дает идеальную ошибку разделения. Итак, решено придерживаться модели sklearn, которая выполняет L2-регуляризацию.)

...