Это проблема несбалансированной классификации. Ниже приведены методы, используемые для обработки несбалансированных наборов данных.
1.Undersampling
2.Oversampling
Генерация синтетических данных
4. Чувствительное обучение
1.Undersampling
Этот метод работает с большинством классов. Это уменьшает количество наблюдений от большинства классов, чтобы сбалансировать набор данных. Этот метод лучше всего использовать, когда набор данных огромен, а сокращение количества обучающих выборок помогает улучшить время выполнения и проблемы с хранением.
Методы опробования бывают двух типов: случайные и информативные.
- передискретизации
Этот метод работает с классом меньшинства. Он копирует наблюдения из класса меньшинства, чтобы сбалансировать данные. Это также известно как повышение частоты дискретизации. Как и в случае недостаточной выборки, этот метод также можно разделить на два типа: случайная избыточная выборка и информативная избыточная выборка.
- Генерация синтетических данных
Проще говоря, вместо репликации и добавления наблюдений из класса меньшинства, он преодолевает дисбалансы путем создания искусственных данных. Это также метод передискретизации.
Что касается генерации синтетических данных, метод синтетической избыточной выборки меньшинств (SMOTE) является мощным и широко используемым методом. Алгоритм SMOTE создает искусственные данные на основе сходства пространств признаков (а не пространств данных) из выборок меньшинства. Можно также сказать, что он генерирует случайный набор наблюдений класса меньшинства, чтобы сместить смещение обучения классификатора в сторону класса меньшинства.
- Обучение с учетом затрат (CSL)
Это еще один широко используемый метод для решения проблем классификации с несбалансированными данными. Это интересный метод. Проще говоря, этот метод оценивает стоимость, связанную с неправильной классификацией наблюдений.
Не создает сбалансированного распределения данных. Вместо этого он подчеркивает несбалансированную проблему обучения, используя матрицы затрат, которые описывают стоимость ошибочной классификации в конкретном сценарии. Недавние исследования показали, что обучение с учетом затрат во много раз превосходило методы выборки. Следовательно, этот метод обеспечивает вероятную альтернативу методам отбора проб.
Чтобы построить их в R, обратитесь по ссылке https://www.analyticsvidhya.com/blog/2016/03/practical-guide-deal-imbalanced-classification-problems/