Как исправить функцию factor (), возвращающую na для столбца в R - PullRequest
1 голос
/ 23 марта 2020

Я создаю набор данных для обучения, исходя из того, что заработная плата клиента составляет <= 50К или> 50К. Однако я столкнулся с проблемой с функцией factor () в R, где она заменяет все мои значения заработной платы на NA.

newURL1 <- "https://archive.ics.uci.edu/ml/machine-learning-databases/adult/adult.data"
customer <- read.table(newURL1,sep=",",header=FALSE,na.strings="?")
names(customer) <- c("ID","workclass","fnlwgt","education","education-num", "marital-Status","occupation","relationship","race","sex","capital-gain","capital-loss","hours-per-week","native-country","wage")
dfCustomer <- customer[-1] #get rid of id column
dfCustomer$wage <- factor(dfCustomer$wage,levels=c(2,4),labels=c("<=50K",">50K"))

после запуска этого кода, если вы запустите head(dfCustomer), вы увидите, что результирующий столбец заработной платы (последний столбец) полностью заменен на NA, как показано ниже:

          workclass fnlwgt  education education-num      marital-Status         occupation   relationship   race     sex capital-gain capital-loss hours-per-week native-country wage
1         State-gov  77516  Bachelors            13       Never-married       Adm-clerical  Not-in-family  White    Male         2174            0             40  United-States <NA>
2  Self-emp-not-inc  83311  Bachelors            13  Married-civ-spouse    Exec-managerial        Husband  White    Male            0            0             13  United-States <NA>
3           Private 215646    HS-grad             9            Divorced  Handlers-cleaners  Not-in-family  White    Male            0            0             40  United-States <NA>
4           Private 234721       11th             7  Married-civ-spouse  Handlers-cleaners        Husband  Black    Male            0            0             40  United-States <NA>
5           Private 338409  Bachelors            13  Married-civ-spouse     Prof-specialty           Wife  Black  Female            0            0             40           Cuba <NA>
6           Private 284582    Masters            14  Married-civ-spouse    Exec-managerial           Wife  White  Female            0            0             40  United-States <NA>

После запуска предполагается, что "<= 50K" и "> 50K" будут показаны как значения под заработную плату

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...