Smote Regress только для данных передискретизации - PullRequest
0 голосов
/ 22 февраля 2020

Я имею дело с проблемой регрессии, когда в моем наборе данных у меня очень много очень низких значений и очень редкие очень высокие значения для целевой переменной. Эта статья вдохновляет меня на решение проблемы несбалансированной регрессии. Авторы статьи используют следующую функцию R, которая называется Smote Regress . Я имею в виду документацию по следующему параметру:

C .pre c:

Список, содержащий процент (ы) недостаточный или избыточный отбор для применения к каждому «классу» (удару), полученному с пороговым значением. Проценты следует указывать в порядке возрастания значения целевой переменной. Проценты применяются в этом порядке к «классам» (ударам), полученным через порог. Процент избыточной выборки, число выше 1, означает, что примеры в этом увеличении увеличены на этот процент. Процент недостаточной выборки, число ниже 1, означает, что случаи в соответствующем выступе занижены на этот процент. Если указан номер 1, то эти примеры не изменены. В качестве альтернативы это может быть «баланс» (по умолчанию) или «экстремальный», случаи, когда процент выборки автоматически оценивается. мои данные, оставив многие низкие значения как есть (ни в нижней выборке, ни в чрезмерной выборке). Другими словами, я не хочу балансировать количество низких и высоких значений (два класса), но я хочу посмотреть, как будет работать моя модель, если я выберу только один класс меньшинства (в данном случае высокие значения).

Сказав это, я должен?

  • поставить C .per c в 'экстремальное'?
  • поставить C .per c до низкого процента недостаточной выборки и высокого процента избыточной выборки как такового SmoteRegress(C.perc=list(0.5,2.5)), но это составит 0,5% недостаточной выборки и 2,5% избыточной выборки? или это превышение выборки на 25%?

Я не могу знать точную разницу между двумя пулями !!

...