Вес образца и выборка вниз для обработки несбалансированных данных - PullRequest
0 голосов
/ 06 декабря 2018

Предположим, у вас есть несбалансированный набор данных.Без учета создания новых данных для него, как вы можете справиться с этим эффективно.Я знаю, что мы можем использовать вес выборки или выборку вниз.Тем не менее, между этими двумя, я не уверен, что выбрать.Кроме того, предположим, что вам нужно построить классификационную модель на этих несбалансированных данных, как эти два метода будут по-разному влиять на производительность модели?

1 Ответ

0 голосов
/ 07 декабря 2018

Это полностью зависит от того, что, если вы уменьшите выборку, сколько данных наблюдений вы оставили, и насколько эффективно класс пониженной выборки сможет приспособиться к разнообразию класса пониженной выборки.например, у вас есть класс 1, который состоит из 100 наблюдений, и класс 2, который содержит 2000 наблюдений (класс 1 составляет ~ 5%).Тогда понижающая выборка не будет иметь смысла, так как не будет достаточно данных наблюдений, чтобы эффективно реализовать модель.100 наблюдений очень меньше.Модель будет иметь большие ошибки обучения.

Но если у вас есть класс 1, который имеет 100 000 наблюдений, и класс 2, имеющий 2 000 000 (снова 5%), то все равно имеет смысл уменьшить выборку, поскольку у вас достаточно наблюдений для обучения модели.

Таким образом, ответ полностью зависит от типа данных, которые вы имеете.Я лично пошел бы с SMOTE.Надеюсь, это поможет.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...