Я пытаюсь сгруппировать некоторые категории рабочих классов в наборе данных о доходах для взрослых на основе существующих значений с использованием gsub.Однако в итоге я получаю две версии категории «Другие неизвестные».Может кто-нибудь помочь мне понять почему?НС / нули есть?в полях.Заранее спасибо!
Ниже мой код
total_data <- read.csv("adult_data_set.csv")
levels(total_data$workclass)[1] <- "Unknown"
total_data$workclass <- gsub("Federal-gov", "Public Sector",total_data$workclass)
total_data$workclass <- gsub("Local-gov", "Public Sector", total_data$workclass)
total_data$workclass <- gsub("State-gov", "Public Sector", total_data$workclass)
total_data$workclass <- gsub("Self-emp-inc", "Self Employed", total_data$workclass)
total_data$workclass <- gsub("Self-emp-not-inc", "Self Employed", total_data$workclass)
total_data$workclass <- gsub("Never-worked", "Other-Unknown", total_data$workclass) #this is part of the 17 count
total_data$workclass <- gsub("Without-pay", "Other-Unknown", total_data$workclass) #this is part of the 17 count
total_data$workclass <- gsub("^Unknown", "Other-Unknown", total_data$workclass)
total_data$workclass <- as.factor(total_data$workclass)
Вот результат, который я получаю
Other-Unknown Private Public Sector Self Employed Other-Unknown
17 22333 4335 3716 1859
Я ожидаю
Other-Unknown Private Public Sector Self Employed
1876 22333 4335 3716