Могу ли я построить модель ML с независимыми переменными, содержащими (временной ряд + категориальный + цифра c) и зависимую от классификатора переменную (0,1) - PullRequest
1 голос
/ 08 января 2020

Допустим, у меня есть данные, содержащие зарплату, профиль работы, опыт работы, количество людей в семье, другие демографические данные c et c .. из нескольких человек, которые посетили мой автосалон, и у меня также есть данные купил ли он / она автомобиль у меня или нет.

Я могу использовать этот набор данных, чтобы предсказать, будет ли новый клиент, вероятно, покупать автомобиль или нет. И скажем, в настоящее время я делаю это с помощью xgboost.

СЕЙЧАС, у меня есть дополнительные данные, но это данные временных рядов ежемесячных расходов, которые человек делает. Скажем, я тоже получаю данные для тренировок. Теперь я хочу построить модель, которая использует эти данные временного ряда и старые демографические данные (+ зарплата, возраст и т. Д. c), чтобы узнать, будет ли покупатель покупать или нет.

Примечание: Во второй части у меня есть данные временных рядов только ежемесячных расходов. Другие переменные находятся в определенный момент времени. Например, у меня нет временного ряда для зарплаты или возраста.

Примечание 2. У меня также есть категориальные переменные, такие как профиль работы, которые я хотел бы использовать в модели. Но для этого я не знаю, был ли человек в том же профиле, или он перешел с другого профиля.

1 Ответ

0 голосов
/ 08 января 2020

Поскольку большая часть данных указана c на человека; за исключением временных рядов расходов, поэтому лучше приводить данные временных рядов на уровне отдельных лиц. Это может быть сделано с помощью разработки функций, например:

  1. Как @cmxu предложил принять различные статистические меры. Еще более выгодно использовать эти статистические показатели в разные промежутки времени, например, среднее значение за последние 2 дня, 5 дней, 7 дней, 15 дней, 30 дней, 90 дней, 180 дней и т. Д. 1013 *.
  2. Создание смешанных функций, таких как: а) отношение заработной платы к статистической сумме расходов, созданной в пункте 1 (выберите соответствующий интервал); б) заработная плата на домохозяйство на человека или средние ежемесячные расходы на домохозяйство. et c.

    С подобными идеями вы можете легко создать 100 или 1000 элементов с вашими данными, а затем передать все эти данные в XGBoost (который легко обучать и отлаживать) или NN (более сложный для обучения). ).

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...