Интерпретация значений коэффициента логистической регрессии в склеарне - PullRequest
0 голосов
/ 24 июня 2018

Я приспособил модель логистической регрессии к своим данным. Представьте, что у меня есть четыре особенности: какое условие участник получил, имел ли участник какие-либо предварительные знания / опыт работы с тестируемым явлением (бинарный ответ в постэкспериментальной анкете), время, потраченное на экспериментальное задание, и возраст участника. Я пытаюсь предсказать, выбрали ли участники в конечном итоге вариант A или вариант B. Моя логистическая регрессия выводит следующие коэффициенты функции с clf.coef_:

[[- 0,68120795 -0,19073737 -2,50511774 0,14956844]]

Если вариант А является моим положительным классом, означает ли этот вывод, что функция 3 является наиболее важной характеристикой для двоичной классификации и имеет отрицательную связь с участниками, выбравшими вариант А (примечание: я не нормализовал / не перемасштабировал свои данные) ? Я хочу убедиться, что мое понимание коэффициентов и информации, которую я могу извлечь из них, является правильным, поэтому я не делаю никаких обобщений или ложных предположений в своем анализе.

Спасибо за вашу помощь!

1 Ответ

0 голосов
/ 04 сентября 2018

Вы идете по правильному пути.Если все имеет очень похожую величину, больший коэффициент pos / neg означает больший эффект при всех равных условиях.

Однако, если ваши данные не нормированы, Марат прав в том, что величина коэффициентовничего не значат (без контекста).Например, вы можете получить разные коэффициенты, изменив единицы измерения, чтобы они были больше или меньше.

Я не могу видеть, включили ли вы здесь ненулевой перехват, но имейте в виду, что коэффициенты логистической регрессиина самом деле это отношения шансов, и вам нужно преобразовать их в вероятности, чтобы получить что-то более прямолинейное.

Посетите эту страницу для хорошего объяснения: https://stats.idre.ucla.edu/other/mult-pkg/faq/general/faq-how-do-i-interpret-odds-ratios-in-logistic-regression/

...