Особенности разработки для обнаружения мошенничества - PullRequest
0 голосов
/ 14 мая 2018

Я провожу некоторые исследования по выявлению мошенничества в академических целях. Я хотел бы знать, в частности, о методах выбора функций \ инжиниринга из набора данных транзакций. Более подробно, с учетом набора данных транзакций (например, кредитной карты), какие функции выбраны для использования в модели и как они разработаны?

Все статьи, с которыми я сталкивался, фокусируются на самой модели (SVM, NN, ...), не касающейся этой темы.

Кроме того, если кто-то знает об открытых наборах данных, которые не являются анонимными, это также поможет.

Спасибо

1 Ответ

0 голосов
/ 14 мая 2018

Хорошее понимание выбора / ранжирования функций может быть большим преимуществом для исследователя данных или специалиста по машинному обучению.Хорошее понимание этих методов приводит к лучшему выполнению моделей, лучшему пониманию базовой структуры и характеристик данных и к лучшему пониманию алгоритмов, лежащих в основе многих моделей машинного обучения.

В целом, есть две причиныПочему выбор функции используется: 1. Сокращение количества функций, чтобы уменьшить переоснащение и улучшить обобщение моделей.2. Чтобы лучше понять особенности и их связь с переменными ответа.

Возможные методы:

Односторонний выбор функции:

  • корреляция Пирсона
  • Взаимная информация и максимальный информационный коэффициент (MIC)
  • Корреляция расстояний
  • Ранжирование на основе модели

На основе дереваметоды:

  • Важность случайных лесных признаков (Среднее уменьшение примесей, Средняя точность снижения)

Другие :

  • выбор стабильности
  • RFE
...