Коэффициенты логистической регрессии не имеют смысла - PullRequest
0 голосов
/ 29 апреля 2019

Я пытаюсь построить модель логистической регрессии для оттока телекоммуникаций.

Некоторые предыстории: для прогнозирования оттока в нашем наборе данных есть данные о таких переменных, как Account_Age, Current_Bill_Amount, Avg_Days_Delinquent (Дни с момента оплаты счета), жалобы, Avg_Calls и некоторые другие.

Мой вопрос касается переменной жалобы,Переменная жалобы была преобразована в 5 фиктивных переменных, поскольку на рисунке показано 6 категорий жалоб.Было создано 5 фиктивных столбцов, исключив жалобы на «ценообразование».

Теперь, как показано в жалобах на изображение «Качество вызовов», «Проблема выставления счетов» имеет высокий абсолютный и процентный отток, а другие типы жалоб не вносят такого большого оттока..

Изображения могут не отображаться с вашей стороны, поэтому ссылки для них: https://imgur.com/88zHamt https://imgur.com/8WR19C0

У меня 2 проблемы, связанные с влиянием жалоб на отток.

Задача 1:

Алгоритм не считает «качество вызова» значимой переменной и имеет значение P, равное 0,527.Учитывая, что 81% клиентов (см. Изображение) с жалобами на «качество звонков», алгоритм дает противоречивый результат.Не могу понять, почему это происходит, качество звонков определенно влияет на отток абонентов.Пожалуйста, поделитесь своими мыслями по этому поводу.

Задача 2:

Коэффициенты для значимых переменных модели (P <0,05) «Проблемы с выставлением счетов», «Проверить счет» и «Перемещение» составляют -1,0033, -2,5675 и -2,1132 соответственно.Здравый смысл заключается в том, что, когда есть жалоба, она должна увеличить отток и, следовательно, коэффициент должен быть положительным.Тогда почему для этих трех фиктивных переменных алгоритм вычисляет отрицательные коэффициенты? </p>

Дайте мне знать, если вам нужна дополнительная информация или есть какие-либо пояснения.

import statsmodels.api as sm
logReg=sm.Logit(Y_train,X_train)
logistic_regression=logReg.fit() 
logistic_regression.summary()

Ожидаются ответы на задачи 1 и 2результат.

1 Ответ

3 голосов
/ 29 апреля 2019

Задача 1:

p-значения - это вероятность того, что коэффициент не равен нулю, а не значимость вашего признака, даже если его часто интерпретируют как он. Здесь вы можете сделать вывод, что невозможно (с достаточной уверенностью) сказать, что коэффициент не равен нулю. Проверьте доверительный интервал 95% для вашего значения, он будет широким и включает положительные значения для коэффициента.

В качестве примера возможное объяснение может состоять в том, что эта переменная несет избыточную информацию с некоторыми другими, что может объяснить, почему алгоритм не может указать свою полезность. Попробуйте выбрать вперед или назад, чтобы удалить итеративно выбранные переменные, это может изменить ваш окончательный выбор.

Задача 2:

Нет абсолютно никаких проблем с коэффициентами, являющимися отрицательными.

Действительно, то, что вы моделируете с помощью логистической регрессии:

P (отток) = 1 / (1 + exp (сумма (beta_i * x_i)) ( см. В википедии в качестве примера )

beta_i - коэффициент для переменной x_i

Вы можете видеть, что отрицательный коэффициент снижает вероятность оттока.

Здесь вы используете группу пользователей с жалобой, о которой поступили сообщения (я не вижу категории «не жалуюсь»), для которой, согласно изображенной вами картинке, вероятность оттока составляет 48,5%.

Таким образом, вероятность оттока по умолчанию составляет 48,5%, однако вероятность оттока фиктивной переменной «перемещение» составляет всего 13,7%. Таким образом, добавление информации о том, что пользователь жалуется на категорию «перемещение», снижает вероятность оттока. Отсюда и отрицательный коэффициент, и он одинаков для «Проблемы с платежами» и «Чекового счета».

Теперь, если вы добавите целую группу пользователей, возможно, что любой тип жалобы увеличит вероятность оттока, и вы получите положительный коэффициент.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...