как сделать с мультиклассовой классификацией, когда данные дисбаланс - PullRequest
1 голос
/ 08 мая 2019

Я сталкиваюсь с задачей классификации нескольких классов, среднее количество каждого класса составляет 1 КБ, и данные представляют собой дисбаланс, есть один класс, у которого есть 1,5 КБ выборки, и у одного класса есть 300 выборок, я наладил модель CNN , но кажется, что он может быть переобучен в классе с меньшим количеством выборок, точность в наборе поездов каждого класса составляет около 0,99. Но в тестовом наборе точность в самом большом классе составляет около 0,95, что, как мне кажется, не является переобученным. В классе из 300 выборок точность составляет всего около 0,65, что слишком много. Как я могу справиться с этой ситуацией? я также попробовал потерю фокуса и ohem, но это не сработало, может быть, потому что потеря фокуса и ohem для низкой точности в наборе поездов, которая вызвана моделью, не может соответствовать жестким примерам в наборе поездов? По моему мнению, я должен добавить больше дополнения данных к исходному набору данных, или, возможно, уменьшить выборку самого большого класса, чтобы сбалансировать данные? Ребята, есть какие-нибудь советы?

...