Ошибка в UseMethod («предикат»): нет применимого метода для «предиката», примененного к объекту класса «NULL» - PullRequest
0 голосов
/ 11 января 2020

Я попробовал ответы, опубликованные в ответ на на этот вопрос , но ошибка не изменилась. Я пытаюсь предварительно обработать оба набора обучения и теста таким же образом. Они приходят из двух разных файлов, и я не уверен, что со своим инструктором все будет в порядке, когда я смешиваю наборы, так что предварительная обработка перед их разделением не является реальной возможностью. Почему линия predict работает в первый раз с тренировочным набором, а не с тестовым набором? два кадра данных должны быть идентичны по своей структуре, за исключением отдельных значений в строках и общего количества строк.

##### Load libraries #####
library(readr)
library(caret)

###### Read in data ######

training = read_csv("~/Machine Learning 2/M1/buad5132-m1-training-data.csv")
test = read_csv("~/Machine Learning 2/M1/buad5132-m1-test-data.csv")

##### Preprocessing #####

### Change column classes 

#Training
training$INDEX = as.factor(training$INDEX)
training$TARGET_FLAG = as.factor(training$TARGET_FLAG)
training$PARENT1 = as.factor(training$PARENT1)
training$MSTATUS = as.factor(training$MSTATUS)
training$SEX = as.factor(training$SEX)
training$EDUCATION = as.factor(ifelse(training$EDUCATION == "<High School", "Less than High School", training$EDUCATION))
training$JOB = as.factor(training$JOB)
training$CAR_USE = as.factor(training$CAR_USE)
training$CAR_TYPE = as.factor(training$CAR_TYPE)
training$RED_CAR = as.factor(training$RED_CAR)
training$REVOKED = as.factor(training$REVOKED)
training$INCOME = suppressWarnings(as.numeric(gsub("[^0-9.]", "", training$INCOME)))
training$HOME_VAL = suppressWarnings(as.numeric(gsub("[^0-9.]", "", training$HOME_VAL)))
training$OLDCLAIM = suppressWarnings(as.numeric(gsub("[^0-9.]", "", training$HOME_VAL)))
training$BLUEBOOK = suppressWarnings(as.numeric(gsub("[^0-9.]", "", training$BLUEBOOK)))
training$URBANICITY = ifelse(grepl("Urban", training$URBANICITY), "Urban", "Rural")
training$URBANICITY = as.factor(training$URBANICITY)

#Test
test$INDEX = as.factor(test$INDEX)
test$TARGET_FLAG = as.factor(test$TARGET_FLAG)
test$PARENT1 = as.factor(test$PARENT1)
test$MSTATUS = as.factor(test$MSTATUS)
test$SEX = as.factor(test$SEX)
test$EDUCATION = as.factor(ifelse(test$EDUCATION == "<High School", "Less than High School", test$EDUCATION))
test$JOB = as.factor(test$JOB)
test$CAR_USE = as.factor(test$CAR_USE)
test$CAR_TYPE = as.factor(test$CAR_TYPE)
test$RED_CAR = as.factor(test$RED_CAR)
test$REVOKED = as.factor(test$REVOKED)
test$INCOME = suppressWarnings(as.numeric(gsub("[^0-9.]", "", test$INCOME)))
test$HOME_VAL = suppressWarnings(as.numeric(gsub("[^0-9.]", "", test$HOME_VAL)))
test$OLDCLAIM = suppressWarnings(as.numeric(gsub("[^0-9.]", "", test$HOME_VAL)))
test$BLUEBOOK = suppressWarnings(as.numeric(gsub("[^0-9.]", "", test$BLUEBOOK)))
test$URBANICITY = ifelse(grepl("Urban", test$URBANICITY), "Urban", "Rural")
test$URBANICITY = as.factor(test$URBANICITY)

### Dummy variables

#Training
trainDmyParams = dummyVars(~., training[,-c(1,2)])
training.dmy = as.data.frame(predict(trainDmyParams, training[,-c(1,2)]))
training.dmy$TARGET_FLAG = training$TARGET_FLAG 
names(training.dmy) = make.names(names(training.dmy))

#Test
testDmyParams = dummyVars(~., test[,-c(1,2)])
test.dmy = as.data.frame(predict(testDmyParams, test[,-c(1,2)]))
test.dmy$TARGET_FLAG = test$TARGET_FLAG
names(test.dmy) = make.names(names(test.dmy))

### Standardization and imputation

#Training
preProcessTrain = preProcess(training.dmy, method = c("center", "scale", "bagImpute"))
training.prepped = predict(preProcessTrain, training.dmy)

#Test
preProcessTest = preProcess(test.dmy, method = c("center", "scale", "bagImpute"))    
test.prepped = predict(preProcessTest, test.dmy)    # <--- error occurs on this line

Error in UseMethod("predict") : no applicable method for 'predict' applied to an object of class "NULL"

1 Ответ

0 голосов
/ 11 января 2020

@ duckmayr Я не могу вписать все это в комментарий. Полный вывод str(preProcessTest) был слишком длинным для публикации здесь. Я на самом деле остановил это через несколько минут, поэтому я не уверен, сколько времени потребуется, чтобы бежать. Ниже у меня есть первые несколько строк вывода, но я не знаю, что с этим делать. После этого он продолжает выводить то же самое, показывая, что делает bagImpute. Я должен отметить, что str(preProcessTrain) выглядит очень похоже на str(preProcessTest), и это работает, когда в прошлом predict.

List of 21
 $ dim              : int [1:2] 0 47
 $ bc               : NULL
 $ yj               : NULL
 $ et               : NULL
 $ invHyperbolicSine: NULL
 $ mean             : Named num [1:46] 1.63e-01 4.50e+01 7.17e-01 1.04e+01 6.03e+04 ...
  ..- attr(*, "names")= chr [1:46] "KIDSDRIV" "AGE" "HOMEKIDS" "YOJ" ...
 $ std              : Named num [1:46] 4.87e-01 8.53 1.12 4.17 4.70e+04 ...
  ..- attr(*, "names")= chr [1:46] "KIDSDRIV" "AGE" "HOMEKIDS" "YOJ" ...
 $ ranges           : NULL
 $ rotation         : NULL
 $ method           :List of 4
  ..$ center   : chr [1:46] "KIDSDRIV" "AGE" "HOMEKIDS" "YOJ" ...
  ..$ scale    : chr [1:46] "KIDSDRIV" "AGE" "HOMEKIDS" "YOJ" ...
  ..$ bagImpute: chr [1:46] "KIDSDRIV" "AGE" "HOMEKIDS" "YOJ" ...
  ..$ ignore   : chr "TARGET_FLAG"
 $ thresh           : num 0.95
 $ pcaComp          : NULL
 $ numComp          : NULL
 $ ica              : NULL
 $ wildcards        :List of 2
  ..$ PCA: chr(0) 
  ..$ ICA: chr(0) 
 $ k                : num 5
 $ knnSummary       :function (x, ...)  
 $ bagImp           :List of 46
  ..$ KIDSDRIV                       :List of 2
  .. ..$ var  : chr "KIDSDRIV"
  .. ..$ model:List of 6
  .. .. ..$ y     : num(0) 
  .. .. ..$ X     : NULL
  .. .. ..$ mtrees:List of 10
  .. .. .. ..$ :List of 1
  .. .. .. .. ..$ btree:List of 10
  .. .. .. .. .. ..$ frame    :'data.frame':    1 obs. of  8 variables:
  .. .. .. .. .. .. ..$ var       : Factor w/ 1 level "<leaf>": 1
  .. .. .. .. .. .. ..$ n         : int 0
  .. .. .. .. .. .. ..$ wt        : num 0
  .. .. .. .. .. .. ..$ dev       : num 0
  .. .. .. .. .. .. ..$ yval      : num NaN
  .. .. .. .. .. .. ..$ complexity: num NaN
  .. .. .. .. .. .. ..$ ncompete  : int 0
  .. .. .. .. .. .. ..$ nsurrogate: int 0
  .. .. .. .. .. ..$ call     :List of 1
  .. .. .. .. .. .. ..$ na.action: NULL
  .. .. .. .. .. ..$ terms    :Classes 'terms', 'formula'  language y ~ AGE + HOMEKIDS + YOJ + INCOME + PARENT1.No + PARENT1.Yes + HOME_VAL + MSTATUS.Yes + MSTATUS.z_No + SEX.M + SE| __truncated__ ...
  .. .. .. .. .. .. .. ..- attr(*, "variables")= language list(y, AGE, HOMEKIDS, YOJ, INCOME, PARENT1.No, PARENT1.Yes, HOME_VAL, MSTATUS.Yes, MSTATUS.z_No, SEX.M, SEX.z_F,| __truncated__ ...
  .. .. .. .. .. .. .. ..- attr(*, "factors")= int [1:47, 1:46] 0 1 0 0 0 0 0 0 0 0 ...
  .. .. .. .. .. .. .. .. ..- attr(*, "dimnames")=List of 2
  .. .. .. .. .. .. .. .. .. ..$ : chr [1:47] "y" "AGE" "HOMEKIDS" "YOJ" ...
  .. .. .. .. .. .. .. .. .. ..$ : chr [1:46] "AGE" "HOMEKIDS" "YOJ" "INCOME" ...
  .. .. .. .. .. .. .. ..- attr(*, "term.labels")= chr [1:46] "AGE" "HOMEKIDS" 

На самом деле, если я смотрю на сводку обоих из них:

summary(preProcessTrain)

                  Length Class  Mode    
dim                2     -none- numeric 
bc                 0     -none- NULL    
yj                 0     -none- NULL    
et                 0     -none- NULL    
invHyperbolicSine  0     -none- NULL    
mean              46     -none- numeric 
std               46     -none- numeric 
ranges             0     -none- NULL    
rotation           0     -none- NULL    
method             4     -none- list    
thresh             1     -none- numeric 
pcaComp            0     -none- NULL    
numComp            0     -none- NULL    
ica                0     -none- NULL    
wildcards          2     -none- list    
k                  1     -none- numeric 
knnSummary         1     -none- function
bagImp            46     -none- list    
median             0     -none- NULL    
data               0     -none- NULL    
rangeBounds        2     -none- numeric 

summary(preProcessTest)

                  Length Class  Mode    
dim                2     -none- numeric 
bc                 0     -none- NULL    
yj                 0     -none- NULL    
et                 0     -none- NULL    
invHyperbolicSine  0     -none- NULL    
mean              46     -none- numeric 
std               46     -none- numeric 
ranges             0     -none- NULL    
rotation           0     -none- NULL    
method             4     -none- list    
thresh             1     -none- numeric 
pcaComp            0     -none- NULL    
numComp            0     -none- NULL    
ica                0     -none- NULL    
wildcards          2     -none- list    
k                  1     -none- numeric 
knnSummary         1     -none- function
bagImp            46     -none- list    
median             0     -none- NULL    
data               0     -none- NULL    
rangeBounds        2     -none- numeric 
...