Важность функции в очень несбалансированных данных - PullRequest
0 голосов
/ 14 апреля 2019

У меня есть проблема с обнаружением мошенничества. Набор данных крайне несбалансирован, как 100000 отрицательных примеров и только 1000 положительных. Число возможных предикторов составляет около 25. Существуют непрерывные и дискретные категории, варьирующиеся от 2 до 10. Основное внимание в задаче уделяется ранжированию наиболее важных переменных, которые помогут выявить мошенничество, а не напрямую построить лучшую модель, в которой, конечно, наилучшая модель не оценивается на основе точности. Я использую R, и я, вероятно, пропущу случайный лес из-за его предпочтения непрерывной переменной и дискретной переменной с большим количеством категорий. Я думаю об использовании ctree (R) - дерева условных выводов. Есть много работ, в которых предлагалось использовать частоту выбора и важность перестановки, имея отдельные деревья, построенные на загрузочных выборках исходного размера выборки n, нарисованных без замены.

Мои вопросы:

1. Кто-нибудь пробовал это, и если да, то каков был опыт?

2. Будет ли полезна регрессия LASSO или RIDGE в этом случае?

3. Я не уверен, принесет ли что-нибудь заниженное / повышенное / синтетическое сэмплирование и т. Д., Потому что, используя их, я не знаю, как количественно оценить их влияние на важность функций.

4. Наказанные модели для важности функции? Как, какой опыт на этом?

5. Общий вопрос: независимо от подхода, мне нужно разделить данные на обучение / тестирование, что очень полезно для позитивного класса даже при перекрестной проверке. Предположим, что я получил такую ​​же ранжированную переменную в данных поезда, что я сомневаюсь в результате такого маленького теста. Я не прав или я что-то здесь упускаю?

6. Любая дальнейшая идея, опыт, чтобы поделиться?

Спасибо!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...