У меня есть проблема с обнаружением мошенничества. Набор данных крайне несбалансирован, как 100000 отрицательных примеров и только 1000 положительных.
Число возможных предикторов составляет около 25. Существуют непрерывные и дискретные категории, варьирующиеся от 2 до 10.
Основное внимание в задаче уделяется ранжированию наиболее важных переменных, которые помогут выявить мошенничество, а не напрямую построить лучшую модель, в которой, конечно, наилучшая модель не оценивается на основе точности.
Я использую R, и я, вероятно, пропущу случайный лес из-за его предпочтения непрерывной переменной и дискретной переменной с большим количеством категорий.
Я думаю об использовании ctree (R) - дерева условных выводов. Есть много работ, в которых предлагалось использовать частоту выбора и важность перестановки, имея отдельные деревья, построенные на загрузочных выборках исходного размера выборки n, нарисованных без замены.
Мои вопросы:
1. Кто-нибудь пробовал это, и если да, то каков был опыт?
2. Будет ли полезна регрессия LASSO или RIDGE в этом случае?
3. Я не уверен, принесет ли что-нибудь заниженное / повышенное / синтетическое сэмплирование и т. Д., Потому что, используя их, я не знаю, как количественно оценить их влияние на важность функций.
4. Наказанные модели для важности функции? Как, какой опыт на этом?
5. Общий вопрос: независимо от подхода, мне нужно разделить данные на обучение / тестирование, что очень полезно для позитивного класса даже при перекрестной проверке. Предположим, что я получил такую же ранжированную переменную в данных поезда, что я сомневаюсь в результате такого маленького теста. Я не прав или я что-то здесь упускаю?
6. Любая дальнейшая идея, опыт, чтобы поделиться?
Спасибо!