У меня есть некоторые данные переписи, где людям было разрешено указывать свою расу как одну или комбинацию множества разных рас.Мы разрешаем им выбирать из этих вариантов.
индеец
восточноазиатский
тихоокеанский островитянин
черный или афроамериканец
белый или белый
латиноамериканецили латиноамериканец / a
южно-азиатский
ближневосточный
другой
Полученные данные довольно беспорядочные, если вы хотите составить таблицы непредвиденных обстоятельств гонкилюди, потому что в выводе данных, который я привел ниже, один человек перечислил столько же разных рас.
structure(list(Race = structure(c(3L, 2L, 3L, 9L, 9L, 11L,
5L, 11L, 3L, 3L, 3L, 3L, 7L, 3L, 11L, 5L, 9L, 10L, 9L, 10L, 2L,
3L, 2L, 6L, 9L, 10L, 3L, 10L, 8L, 3L, 5L, 1L, 2L, 9L, 4L, 3L), .Label = c("Black or African American",
"Black or African American,White or Caucasian", "East Asian",
"East Asian,Pacific Islander", "Hispanic or Latino/a", "Other",
"Pacific Islander", "South Asian", "White or Caucasian", "White or Caucasian,Hispanic or Latino/a",
"White or Caucasian,Middle Eastern"), class = "factor")), class = "data.frame", row.names = c(NA,
-36L))
Чтобы уменьшить количество факторов, я бы хотел превратить любую ячейку, в которой есть несколько рас, в ячейку в «Смешанную».Как эта ячейка с надписью «Белый или Кавказ, Ближний Восток» должна быть превращена в смешанную.Потому что мой фактический набор данных огромен с множеством различных комбинаций рас, использующих что-то вроде gsub()
, и ввод во всех комбинациях для замены на «Смешанный» кажется мне нереальным.