У меня несбалансированный набор данных, извлеченный из веб-страниц текстовые данные , и я вручную классифицировал его на положительный класс, тогда как другойотрицательный класс может иметь любой тип текстовых данных , который я пометил как отрицательный .Глядя на набор данных, стало ясно, что отрицательные образцы очень меньше прибл. 1200 из 6000.
Отрицательный = 1200
Положительный = 4800
Первоначально с несбалансированным набором данных с портом, модель смещена в мажоритарный класс с высокимточность, которая имела худшие показатели в невидимых данных.
Поэтому я взял 1200 Отрицательных и 1200 Положительных и сделал их сбалансированными .
Я реализовал плотную модель64 узла в 4 слоях с регуляризацией 0,5 с использованием Keras и возможность достижения 60% точности перекрестной проверки, в то время как точность поезда достигает 95%.
Глядя на val_acc
и acc
Я чувствую, что это примерно переоснащение после примерно 20 эпох.Кроме того, он также не может обобщать из-за меньшего числа строк данных в сбалансированном наборе данных.
- Как можно решить такие проблемы?
- Может ли One Class SVM помочь в классификации текста по одной категории?
- Если One Class SVM может помочь, то может ли кто-нибудь предоставить базовый пример или ресурс для его реализации?