Выбор характеристик в прогнозировании оттока - PullRequest
0 голосов
/ 24 февраля 2020

Я построил модель прогнозирования оттока для данных электронной коммерции. В модели критерий оттока должен быть неактивным в течение 12 месяцев с последней доступной даты в данных. При построении модели я создал несколько рассчитанных функций, чтобы учесть активность в прогнозе. Я добавил активность клиентов за последние 3 и 6 месяцев как бинарную. Их соотношение с оттоком составляет 0,5 и 0,7 соответственно. Когда я проверял другие модели прогнозирования оттока в Интернете, я видел похожие показатели в некоторых проектах, а некоторые другие не включают такой показатель c.

Точность моих моделей составляет около 90%, и я обеспокоен что, если я делаю это неправильно, помещая последние 3 и / или 6 месяцев активности клиентов в качестве входных данных для модели. Кроме того, я должен волноваться о корреляции между активностью 3 м и активностью 6 м? Я использовал PCA для извлечения признаков, сохраняя 0,95 дисперсии, но достаточно ли этого, чтобы избежать проблемы корреляции?

...