Факторы свертывания, упорядочения и удаления в dplyr - PullRequest
0 голосов
/ 18 октября 2018

Подстановка большого фрейма данных оставляет нам факторную переменную, которая нуждается в переупорядочении и отбрасывании отсутствующих факторов.Представление ниже:

library(tidyverse)

set.seed(1234)

data <- c("10th Std. Pass", "11th Std. Pass", "12th Std. Pass", "5th Std. Pass", 
          "6th Std. Pass", "Diploma / certificate course", "Graduate", "No Education")

education <-  factor(sample(data, size = 5, replace = TRUE), 
                     levels = c(data, "Data not available"))

survey <-  tibble(education)

Код ниже, согласно этому ответу , достигает того, что мы хотим, но мы хотели бы интегрировать переупорядочение и отбрасывание факторов в наш канал.перекодирование опроса.

recoded_s <- survey %>% mutate(education =
  fct_collapse(education,
"None" = "No Education",
"Primary" = c("5th Std. Pass", "6th Std. Pass"),
"Secondary" = c("10th Std. Pass", "11th Std. Pass", "12th Std. Pass"), 
"Tertiary" = c("Diploma / certificate course", "Graduate")
  ))

recoded_s$education
#> [1] Secondary Primary   Primary   Primary   Tertiary 
#> Levels: Secondary Primary Tertiary None Data not available


# Re-ordering and dropping variables
factor(recoded_s$education, levels = c("None", "Primary", "Secondary", "Tertiary"))
#> [1] Secondary Primary   Primary   Primary   Tertiary 
#> Levels: None Primary Secondary Tertiary

Любые указатели будут очень признательны!

1 Ответ

0 голосов
/ 18 октября 2018

Я не уверен, что понимаю.Не могли бы вы пояснить, почему не достаточно обернуть все внутри вызова mutate?

library(tidyverse)
library(forcats)
survey %>%
    mutate(
        education = fct_collapse(
            education,
            "None" = "No Education",
            "Primary" = c("5th Std. Pass", "6th Std. Pass"),
            "Secondary" = c("10th Std. Pass", "11th Std. Pass", "12th Std. Pass"),
            "Tertiary" = c("Diploma / certificate course", "Graduate")),
        education = factor(education, levels = c("None", "Primary", "Secondary", "Tertiary")))

Альтернативное использование dplyr::recode

lvls <- list(
    "No Education" = "None",
    "5th Std. Pass" = "Primary",
    "6th Std. Pass" = "Primary",
    "10th Std. Pass" = "Secondary",
    "11th Std. Pass" = "Secondary",
    "12th Std. Pass" = "Secondary",
    "Diploma / certificate course" = "Tertiary",
    "Graduate" = "Tertiary")
survey %>%
    mutate(
        education = factor(recode(education, !!!lvls), unique(map_chr(lvls, 1))))
...