Интеграция пропущенных значений в лесах изоляции - PullRequest
1 голос
/ 21 марта 2019

Современные алгоритмы XGBoost способны обрабатывать пропущенные значения, выбирая направление -best- во время тренировки, сводя к минимуму потери ( source ). В нашем учреждении эта функция имеет большое значение, поскольку мы имеем дело с разреженными табличными данными.

Наш следующий проект посвящен обнаружению выбросов в похожих наборах данных; огромные наборы табличных данных с относительно большим количеством пропущенных данных. Одна из интересных техник, с которыми мы столкнулись, - Леса Изоляции. Теперь мы хотели бы изучить возможность интеграции функции, такой как XGBoost, для отсутствующих значений в текущие леса изоляции. Впоследствии у меня есть два вопроса;

1] Будет ли технически осуществима эта идея интеграции обработки отсутствующих данных в леса изоляции, и, кроме того, имеет ли смысл?

2] Могут ли в этих случаях работать намного лучше другие пропущенные методы обработки данных (например, предварительное вменение) или даже другие алгоритмы обнаружения выбросов?

Пожалуйста, дайте мне услышать ваши советы, это будет очень полезно! Заранее спасибо.

...