Сбалансированный образец с определенным n в R - PullRequest
1 голос
/ 18 марта 2019

У меня есть несбалансированный набор данных для анализа настроений с около 65000 наблюдений (~ 60000 положительных и ~ 5000 отрицательных). Этот набор данных должен быть сбалансирован так, чтобы у меня было одинаковое количество положительных и отрицательных наблюдений для обучения моим алгоритмам машинного обучения.

Пакет caret и функция downSample помогают мне получить ~ 5000 отрицательных и ~ 5000 положительных наблюдений (понижающая выборка до уровня меньшинства). Но мне нравится иметь ровно 2500 случайно выбранных положительных и 2500 случайно выбранных отрицательных наблюдений. Кто-нибудь знает, как это сделать?

Ответы [ 2 ]

1 голос
/ 21 марта 2019

В идеале, вы должны выполнить подвыборку внутри процедуры повторной выборки.Я предлагаю использовать аргумент sampling для trainControl, чтобы указать различные понижающие выборки.Использование кода из @ mr.joshuagordon:

library(caret)
#> Loading required package: lattice
#> Loading required package: ggplot2
require(tidyverse)
#> Loading required package: tidyverse
df <-
  data.frame(
    class = factor(c(rep('POS', 60000), rep('NEG', 5000))),
    random1 = runif(65000),
    random2 = runif(65000)
  )

sampler <- function(x, y) {
  if (!is.data.frame(x))
    x <- as.data.frame(x)
  dat <- 
    x %>% 
    mutate(.y = y) %>% 
    group_by(.y) %>% 
    sample_n(2500) %>% 
    ungroup() %>% 
    as.data.frame()
  list(x = dat[, names(dat) != ".y", drop = FALSE], y = dat$.y)
}

samp_info <- list(name = sampler, first = TRUE)

ctrl <- trainControl(method = "cv", sampling = sampler)

lr_mod <- train(class ~ ., data = df, method = "glm", trControl = ctrl)
length(lr_mod$finalModel$residuals)
#> [1] 5000

Создано в 2019-03-20 пакетом представлений (v0.2.1)

0 голосов
/ 18 марта 2019

Вы просто хотите 2500 каждого ??

require(tidyverse)
df <- data.frame(class = c(rep('POS',60000), rep('NEG',5000)), random = runif(65000))
result <- df %>% 
  group_by(class) %>% 
  sample_n(2500)
table(result$class)
...