У меня есть набор данных клиентов со временем на событие и отток события. У меня также есть переменная, которая является общей покупкой клиента. Время и событие определяются как:
- Время до события: Первая покупка до последней покупки
- Событие : отток клиентов (hasn ' совершил покупку за последние 28 дней)
- всего покупок : общее количество покупок клиента
Пример набора данных (км):
Customer_id / Time_first_purchase_to_last / churn_event / total Purchases / purchase_class
id1 5 days 0 2 <5
id2 23 days 1 43 10 to 40
Если я делю покупки и вычисляю кривые выживания в КМ, я получаю:
surv_object <- Surv(time = km$Time_first_purchase_to_last, event = km$churn_event)
km_purchases <- survfit(surv_object ~ purchase_class, data = km)
![enter image description here](https://i.stack.imgur.com/hoZ3d.png)
В принципе, кажется, что чем больше покупок вы с большей вероятностью не взбалтывать, регрессия Кокса выдает те же результаты с количеством покупок. это означает, что чем больше клиент был нашим клиентом, тем больше покупок у него будет (очевидно). Так что новые клиенты, как правило, имеют небольшое количество покупок и мало времени на мероприятия.
В таком случае, имеет ли смысл использовать сумму покупки в качестве функции для регрессии Кокса? Это вносит какой-то уклон?