Logisti c проблема матрицы регрессии путаницы - PullRequest
3 голосов
/ 27 марта 2020

Я пытался вычислить для моей модели, но я продолжаю получать:

Ошибка: data и reference должно быть факторы с одинаковыми уровнями.

Ниже моя модель:

model3 <- glm(winner ~ srs.1 + srs.2, data = train_set, family = binomial)
confusionMatrix(table(predict(model3, newdata=test_set, type="response")) >= 0.5,
                      train_set$winner == 1)

winner переменная содержит team1 и team2.
srs.1 и srs.2 являются числовыми значениями.

В чем моя проблема?

1 Ответ

2 голосов
/ 27 марта 2020

Полагаю, ваша метка winner является двоичным числом 0,1. Итак, давайте воспользуемся приведенным ниже примером:

library(caret)
set.seed(111)
data = data.frame(
srs.1 = rnorm(200),
srs.2 = rnorm(200)
)

data$winner = ifelse(data$srs.1*data$srs.2 > 0,1,0)

idx = sample(nrow(data),150)
train_set = data[idx,]
test_set = data[-idx,]

model3 <- glm(winner ~ srs.1 + srs.2, data = train_set, family = binomial)

Как и вы, мы пытаемся предсказать, если> 0,5, это будет 1, еще 0. Вы получили таблицу () примерно так. Обратите внимание, что вы должны сделать это как для test_set, так и train_set:

pred = as.numeric(predict(model3, newdata=test_set, type="response")>0.5)
ref = test_set$winner

confusionMatrix(table(pred,ref))

Confusion Matrix and Statistics

    ref
pred  0  1
   0 12  5
   1 19 14

               Accuracy : 0.52            
                 95% CI : (0.3742, 0.6634)
    No Information Rate : 0.62            
    P-Value [Acc > NIR] : 0.943973        

                  Kappa : 0.1085  
...