XGBoost, обработка непрерывных и фиксированных данных для набора данных ссуды - PullRequest
0 голосов
/ 20 февраля 2019

Справочная информация:

Я использую XGBoost для разработки модели, позволяющей предсказать, будет ли конкретный кредит иметь дефолт или нет.Теперь я включил данные временных рядов по шкале Фико и другие переменные, которые меняются во времени.Таким образом, у меня есть 13 202 уникальных займа, но более 300 000 строк с переменными и фиксированными данными.

Вопрос:

Учитывая, что у меня есть данные, которые меняются во времени, и некоторые данныечто останется неизменным во времени, например, размер лота и площадь в квадратных метрах свойства могут ли XGBoost различать смесь фиксированных данных и переменных данных?Кроме того, при разделении моих данных на обучающие и тестирующие наборы их способ сделать так, чтобы сами займы были разделены соответственно, а не только строки?

1 Ответ

0 голосов
/ 20 февраля 2019

Существует много способов построения моделей машинного обучения для прогнозирования, и у каждого метода есть свои плюсы и минусы.

Однако мой принцип заключается в том, что независимо от того, что я делаю и как я генерирую новые функции., Я не буду изменять детализацию данных .Например, в этом случае, если я прогнозирую, будет ли кредит по умолчанию или нет, тогда моей строкой будут уникальные кредиты, и ни один кредит не будет отображаться более одного раза в моих данных обучения / тестирования.

Этоприводит к тому, как вы должны генерировать новые функции.Вы упомянули, что у вас есть данные, связанные с временными рядами (т. Е. Значения признаков в разные моменты времени для каждого займа).Вероятно, в этот момент я буду расширять данные по горизонтали, а не по вертикали.

Я сделаю что-то вроде:

    loan_id feat1_t1   feat1_t2   feat1_t3   feat2 ...
          1        5          7          8     0.2 ...

Таким образом, я все еще сохраняю только 1 строку длякаждый loan_id.feat1 - это переменная, которая собирается в разные моменты времени, то есть _t1, _t2 и _t3.А для переменных, которые являются фиксированными, у меня будет только 1 столбец (т. Е. feat2).

Надеюсь, это ответит на ваш вопрос.

...