Logisti c регрессия с использованием данных опроса клиентов в Python - PullRequest
0 голосов
/ 11 февраля 2020

У меня есть проект, который я не знаю, как реализовать. Мне нужно построить регрессию logisti c, используя данные опроса клиентов для прогнозирования NPS (фактически, коэффициенты более важны для этого варианта использования).

Я чувствую себя уверенно, используя различные наборы данных машинного обучения, но у меня есть несколько опасений по поводу данных опроса клиентов. Мои вопросы:

  1. Кодировка весов. Пример вопроса: «Сколько времени вам пришлось ждать? А) менее 10 минут, б) 10-20 минут, c) 20-30 минут, г) более 30 минут». Это интервальные данные, поэтому я могу оставить значения 1, 2, 3 и 4, верно? Также шкалы удовлетворенности действительно распространены - от очень довольных до очень неудовлетворенных.

  2. Опция «Не знаю» в вопросах типа «Согласны ли вы с XYZ ?: a) да, b) нет , c) не знаю ". Я просто удаляю их, так как он не передает никакой полезной информации алгоритму?

  3. P-значения и фиктивные переменные. Поскольку многие вопросы являются номинальными, я должен использовать pd.get_dummies (). Но когда я подхожу к модели Lo git () statsmodels, я вижу, что многие переменные имеют значение p, равное 1. Как мне поступить в этом случае?

Заранее спасибо Надеюсь, мои вопросы имеют смысл.

Редактировать: NPS в этом случае означает 1, если Promoter (значения 9 и 10), и 0, если что-нибудь еще.

1 Ответ

0 голосов
/ 11 февраля 2020
  1. , если он скалярный и поддерживает соотношение «greathear than», вы можете закодировать [10,20]; [20:30] ... в 1,2 ... если они не Если у вас нет таких отношений, например: «Вам нравится синий или красный?», тогда вам следует использовать одну горячую кодировку.

  2. используйте одну горячую кодировку, например

yes =        [1,0,0]
no =         [0,1,0]
dont_know =  [0,0,1]
Кажется, у вас есть проблема мультиколлинеарности, вы должны упорядочить данные, отбросить переменную или использовать другие модели, чтобы избежать этого. Другая причина, которая может быть причиной, заключается в том, что ваши x и y - это одно и то же, или вы не учитываете TIME, например: вы используете недавность (последний раз использования) для модели оттока в качестве вашего x, но вы определяете отток как недавность> п-дней.
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...