Я работаю над моделью обнаружения мошенничества с кредитными картами и помечаю данные, содержащие заказы для интернет-магазина. Столбцы, с которыми я работаю: Полное имя клиента, Адрес доставки и адрес выставления счета (город, штат, почтовый индекс, улица), Количество заказа, Общая стоимость, а также индикатор того, был ли заказ обнаружен мошенническим.
Проблема в том, что 98% + транзакций не являются мошенническими - набор данных сильно несбалансирован. Я понимаю, что это проблема классификации, однако я не уверен, с чего начать со столбцов, с которыми я работаю, и дисбаланса данных.
Буду признателен за любые предложения о соответствующих алгоритмах классификации для этого варианта использования и о том, как бороться с несбалансированными данными. При поиске решения этой проблемы я нашел несколько статей, однако большинство из них работают с набором данных Kaggle, который имеет очень разные столбцы (из-за соображений безопасности, которые не позволяют публиковать информацию c).
Спасибо!