Я пытаюсь построить модель логистической регрессии для оттока телекоммуникаций.
Некоторые предыстории: для прогнозирования оттока в нашем наборе данных есть данные о таких переменных, как Account_Age, Current_Bill_Amount, Avg_Days_Delinquent (Дни с момента оплаты счета), жалобы, Avg_Calls и некоторые другие.
Мой вопрос касается переменной жалобы,Переменная жалобы была преобразована в 5 фиктивных переменных, поскольку на рисунке показано 6 категорий жалоб.Было создано 5 фиктивных столбцов, исключив жалобы на «ценообразование».
Теперь, как показано в жалобах на изображение «Качество вызовов», «Проблема выставления счетов» имеет высокий абсолютный и процентный отток, а другие типы жалоб не вносят такого большого оттока..
Изображения могут не отображаться с вашей стороны, поэтому ссылки для них: https://imgur.com/88zHamt https://imgur.com/8WR19C0
У меня 2 проблемы, связанные с влиянием жалоб на отток.
Задача 1:
Алгоритм не считает «качество вызова» значимой переменной и имеет значение P, равное 0,527.Учитывая, что 81% клиентов (см. Изображение) с жалобами на «качество звонков», алгоритм дает противоречивый результат.Не могу понять, почему это происходит, качество звонков определенно влияет на отток абонентов.Пожалуйста, поделитесь своими мыслями по этому поводу.
Задача 2:
Коэффициенты для значимых переменных модели (P <0,05) «Проблемы с выставлением счетов», «Проверить счет» и «Перемещение» составляют -1,0033, -2,5675 и -2,1132 соответственно.Здравый смысл заключается в том, что, когда есть жалоба, она должна увеличить отток и, следовательно, коэффициент должен быть положительным.Тогда почему для этих трех фиктивных переменных алгоритм вычисляет отрицательные коэффициенты? </p>
Дайте мне знать, если вам нужна дополнительная информация или есть какие-либо пояснения.
import statsmodels.api as sm
logReg=sm.Logit(Y_train,X_train)
logistic_regression=logReg.fit()
logistic_regression.summary()
Ожидаются ответы на задачи 1 и 2результат.