Я создаю набор данных для обучения, исходя из того, что заработная плата клиента составляет <= 50К или> 50К. Однако я столкнулся с проблемой с функцией factor () в R, где она заменяет все мои значения заработной платы на NA.
newURL1 <- "https://archive.ics.uci.edu/ml/machine-learning-databases/adult/adult.data"
customer <- read.table(newURL1,sep=",",header=FALSE,na.strings="?")
names(customer) <- c("ID","workclass","fnlwgt","education","education-num", "marital-Status","occupation","relationship","race","sex","capital-gain","capital-loss","hours-per-week","native-country","wage")
dfCustomer <- customer[-1] #get rid of id column
dfCustomer$wage <- factor(dfCustomer$wage,levels=c(2,4),labels=c("<=50K",">50K"))
после запуска этого кода, если вы запустите head(dfCustomer)
, вы увидите, что результирующий столбец заработной платы (последний столбец) полностью заменен на NA, как показано ниже:
workclass fnlwgt education education-num marital-Status occupation relationship race sex capital-gain capital-loss hours-per-week native-country wage
1 State-gov 77516 Bachelors 13 Never-married Adm-clerical Not-in-family White Male 2174 0 40 United-States <NA>
2 Self-emp-not-inc 83311 Bachelors 13 Married-civ-spouse Exec-managerial Husband White Male 0 0 13 United-States <NA>
3 Private 215646 HS-grad 9 Divorced Handlers-cleaners Not-in-family White Male 0 0 40 United-States <NA>
4 Private 234721 11th 7 Married-civ-spouse Handlers-cleaners Husband Black Male 0 0 40 United-States <NA>
5 Private 338409 Bachelors 13 Married-civ-spouse Prof-specialty Wife Black Female 0 0 40 Cuba <NA>
6 Private 284582 Masters 14 Married-civ-spouse Exec-managerial Wife White Female 0 0 40 United-States <NA>
После запуска предполагается, что "<= 50K" и "> 50K" будут показаны как значения под заработную плату