Извлечение метрик и заполнение фрейма данных из нескольких путаницыMatrix - PullRequest
0 голосов
/ 26 апреля 2019

У меня есть несколько выходов confusionMatrix для различных моделей классификации. Я хотел бы извлечь метрики модели из каждой матрицы путаницы (т. Е. Чувствительности -> сбалансированной точности, или всех метрик из cf_1 $ byClass), чтобы заполнить фрейм данных. Я хотел бы, чтобы во фрейме данных содержались все эти метрики, а также метка, для которой он был получен. Может кто-нибудь помочь мне понять, как это сделать? Пожалуйста, см. Ниже для воспроизводимого примера:

library(caret)
library(tidyverse)

df_1 <- data.frame(x = sample(LETTERS[1:2], 20, replace = T),
                      y = sample(LETTERS[1:2], 20, replace = T))

df_2 <- data.frame(x = sample(LETTERS[1:2], 20, replace = T),
                      y = sample(LETTERS[1:2], 20, replace = T))

cf_1 <- confusionMatrix(df_1$y, df_1$x)
cf_2 <- confusionMatrix(df_2$y, df_2$x)

# I would like a dataframe with each of these, as well as column for the associated confusion matrix name
cf_1$byClass
cf_2$byClass

Мой желаемый результат будет выглядеть так, за исключением всех соответствующих метрик:

x = c(0.2, 0.4)
y = c(0.5, 0.6)
z = c("cf_1", "cf_2"
      )

output <- data.frame(Sensitivity = x, Specificity = y, Model = z)

Обновление

Это решение, которое я придумал, оно не красивое, но оно работает. Тем не менее, все еще открыта возможность узнать, может ли кто-нибудь придумать более чистый и эффективный способ сделать это!

model_names <- c("cf_1", "cf_2")
model_metrics <- list()
for (i in 1:length(model_names)) {
     for (j in model_names) {
          model <- eval(as.name(j))
          results <- model$byClass %>% round(digits = 3)
          results <- c(model = j, results)
          model_metrics[[j]] <- results
     }
}

model_metrics <- do.call(rbind, model_metrics) %>% 
     data.frame %>% 
     `rownames<-`(NULL)

model_metrics

Ответы [ 2 ]

1 голос
/ 26 апреля 2019

Два подхода (кстати, я думаю, что у вас есть тип в вашем примере, df_1 используется дважды)

# Base R
output <- data.frame(rbind(cf_1$byClass, cf_2$byClass))
output$model = c('cf_1', 'cf_2')

# dplyr version
output <- bind_rows(cf_1$byClass, cf_2$byClass, .id = 'model')
1 голос
/ 26 апреля 2019

А как же:

library(caret)
library(tidyverse)

df_1 <- data.frame(x = sample(LETTERS[1:2], 20, replace = T),
                      y = sample(LETTERS[1:2], 20, replace = T))

df_2 <- data.frame(x = sample(LETTERS[1:2], 20, replace = T),
                      y = sample(LETTERS[1:2], 20, replace = T))

cf_1 <- confusionMatrix(df_1$y, df_1$x, mode = "sens_spec")
cf_2 <- confusionMatrix(df_2$y, df_2$x, mode = "sens_spec")

bind_rows(stack(cf_1$byClass), stack(cf_2$byClass), .id = "id") %>% 
  filter(ind %in% c("Sensitivity", "Specificity")) %>% 
  spread(id, values) %>% 
  rename(metric = ind, mod1 = "1", mod2 = "2")


#>        metric      mod1 mod2
#> 1 Sensitivity 0.4285714  0.5
#> 2 Specificity 0.6153846  0.4

EDIT Чтобы получить фрейм данных, просто составьте список cf_1:

data.frame(stack(cf_1$byClass))
...