Python Алгоритмы классификации для обнаружения мошенничества - PullRequest
0 голосов
/ 06 апреля 2020

Я работаю над моделью обнаружения мошенничества с кредитными картами и помечаю данные, содержащие заказы для интернет-магазина. Столбцы, с которыми я работаю: Полное имя клиента, Адрес доставки и адрес выставления счета (город, штат, почтовый индекс, улица), Количество заказа, Общая стоимость, а также индикатор того, был ли заказ обнаружен мошенническим.

Проблема в том, что 98% + транзакций не являются мошенническими - набор данных сильно несбалансирован. Я понимаю, что это проблема классификации, однако я не уверен, с чего начать со столбцов, с которыми я работаю, и дисбаланса данных.

Буду признателен за любые предложения о соответствующих алгоритмах классификации для этого варианта использования и о том, как бороться с несбалансированными данными. При поиске решения этой проблемы я нашел несколько статей, однако большинство из них работают с набором данных Kaggle, который имеет очень разные столбцы (из-за соображений безопасности, которые не позволяют публиковать информацию c).

Спасибо!

1 Ответ

0 голосов
/ 06 апреля 2020

Предлагаю прочитать эти статьи:

  1. https://towardsdatascience.com/detecting-financial-fraud-using-machine-learning-three-ways-of-winning-the-war-against-imbalanced-a03f8815cce9
  2. https://towardsdatascience.com/methods-for-dealing-with-imbalanced-data-5b761be45a18

исходя из моего опыта xgboost был очень хорош. Но вы должны иметь очень хорошие возможности, чтобы он мог строить хорошие деревья

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...