Существует много способов построения моделей машинного обучения для прогнозирования, и у каждого метода есть свои плюсы и минусы.
Однако мой принцип заключается в том, что независимо от того, что я делаю и как я генерирую новые функции., Я не буду изменять детализацию данных .Например, в этом случае, если я прогнозирую, будет ли кредит по умолчанию или нет, тогда моей строкой будут уникальные кредиты, и ни один кредит не будет отображаться более одного раза в моих данных обучения / тестирования.
Этоприводит к тому, как вы должны генерировать новые функции.Вы упомянули, что у вас есть данные, связанные с временными рядами (т. Е. Значения признаков в разные моменты времени для каждого займа).Вероятно, в этот момент я буду расширять данные по горизонтали, а не по вертикали.
Я сделаю что-то вроде:
loan_id feat1_t1 feat1_t2 feat1_t3 feat2 ...
1 5 7 8 0.2 ...
Таким образом, я все еще сохраняю только 1 строку длякаждый loan_id.feat1
- это переменная, которая собирается в разные моменты времени, то есть _t1
, _t2
и _t3
.А для переменных, которые являются фиксированными, у меня будет только 1 столбец (т. Е. feat2
).
Надеюсь, это ответит на ваш вопрос.