Question

Учитывая вектор оценок и вектор фактических меток классов, как рассчитать метрику AUC с одним числом для двоичного классификатора на языке R или на простом английском языке?

Страница 9 из «AUC: лучшая мера ...» , кажется, требует знания меток классов, и вот пример в MATLAB , где я не понимаю

R(Actual == 1))

Поскольку R (не путать с языком R) определяется как вектор, но используется как функция?

semaj · Answer 1 · 05 февраля 2011

Пакет ROCR рассчитает AUC среди других статистических данных:

auc.tmp <- performance(pred,"auc"); auc <- as.numeric(auc.tmp@y.values)

J. Win. · Answer 2 · 05 февраля 2011

С пакетом pROC вы можете использовать функцию auc(), как показано в примере на странице справки:

> data(aSAH)
> 
> # Syntax (response, predictor):
> auc(aSAH$outcome, aSAH$s100b)
Area under the curve: 0.7314

erik · Answer 3 · 05 февраля 2011

Как уже упоминалось, вы можете вычислить AUC, используя пакет ROCR . С помощью пакета ROCR вы также можете построить кривую ROC, кривую подъема и другие показатели выбора модели.

Вы можете вычислить AUC напрямую, без использования какого-либо пакета, используя тот факт, что AUC равен вероятности того, что истинный положительный результат набран больше истинного отрицательного.

Например, если pos.scores - это вектор, содержащий множество положительных примеров, а neg.scores - это вектор, содержащий отрицательные примеры, тогда AUC аппроксимируется:

> mean(sample(pos.scores,1000,replace=T) > sample(neg.scores,1000,replace=T))
[1] 0.7261

даст приближение AUC. Вы также можете оценить дисперсию AUC с помощью начальной загрузки:

> aucs = replicate(1000,mean(sample(pos.scores,1000,replace=T) > sample(neg.scores,1000,replace=T)))

AGS · Answer 4 · 29 сентября 2013

Без каких-либо дополнительных пакетов:

true_Y = c(1,1,1,1,2,1,2,1,2,2)
probs = c(1,0.999,0.999,0.973,0.568,0.421,0.382,0.377,0.146,0.11)

getROC_AUC = function(probs, true_Y){
    probsSort = sort(probs, decreasing = TRUE, index.return = TRUE)
    val = unlist(probsSort$x)
    idx = unlist(probsSort$ix)  

    roc_y = true_Y[idx];
    stack_x = cumsum(roc_y == 2)/sum(roc_y == 2)
    stack_y = cumsum(roc_y == 1)/sum(roc_y == 1)    

    auc = sum((stack_x[2:length(roc_y)]-stack_x[1:length(roc_y)-1])*stack_y[2:length(roc_y)])
    return(list(stack_x=stack_x, stack_y=stack_y, auc=auc))
}

aList = getROC_AUC(probs, true_Y) 

stack_x = unlist(aList$stack_x)
stack_y = unlist(aList$stack_y)
auc = unlist(aList$auc)

plot(stack_x, stack_y, type = "l", col = "blue", xlab = "False Positive Rate", ylab = "True Positive Rate", main = "ROC")
axis(1, seq(0.0,1.0,0.1))
axis(2, seq(0.0,1.0,0.1))
abline(h=seq(0.0,1.0,0.1), v=seq(0.0,1.0,0.1), col="gray", lty=3)
legend(0.7, 0.3, sprintf("%3.3f",auc), lty=c(1,1), lwd=c(2.5,2.5), col="blue", title = "AUC")

enter image description here

Ben · Answer 5 · 19 сентября 2016

Я нашел некоторые решения здесь медленными и / или сбивающими с толку (а некоторые из них неправильно обрабатывают связи), поэтому я написал свою собственную data.table функцию auc_roc () в моемПакет R mltools .

library(data.table)
library(mltools)

preds <- c(.1, .3, .3, .9)
actuals <- c(0, 0, 1, 1)

auc_roc(preds, actuals)  # 0.875

auc_roc(preds, actuals, returnDT=TRUE)
   Pred CountFalse CountTrue CumulativeFPR CumulativeTPR AdditionalArea CumulativeArea
1:  0.9          0         1           0.0           0.5          0.000          0.000
2:  0.3          1         1           0.5           1.0          0.375          0.375
3:  0.1          1         0           1.0           1.0          0.500          0.875

Kamil Slowikowski · Answer 6 · 06 мая 2018

Вы можете узнать больше о AUROC в этом сообщении в блоге Miron Kursa :

https://mbq.me/blog/augh-roc/

Он обеспечивает быструю функцию для AUROC:

# By Miron Kursa https://mbq.me
auroc <- function(score, bool) {
  n1 <- sum(!bool)
  n2 <- sum(bool)
  U  <- sum(rank(score)[!bool]) - n1 * (n1 + 1) / 2
  return(1 - U / n1 / n2)
}

Давайте проверим это:

set.seed(42)
score <- rnorm(1e3)
bool  <- sample(c(TRUE, FALSE), 1e3, replace = TRUE)

pROC::auc(bool, score)
mltools::auc_roc(score, bool)
ROCR::performance(ROCR::prediction(score, bool), "auc")@y.values[[1]]
auroc(score, bool)

0.51371668847094
0.51371668847094
0.51371668847094
0.51371668847094

auroc() в 100 раз быстрее, чем pROC::auc() и computeAUC().

auroc() в 10 раз быстрее, чем mltools::auc_roc() и ROCR::performance().

print(microbenchmark(
  pROC::auc(bool, score),
  computeAUC(score[bool], score[!bool]),
  mltools::auc_roc(score, bool),
  ROCR::performance(ROCR::prediction(score, bool), "auc")@y.values,
  auroc(score, bool)
))

Unit: microseconds
                                                             expr       min
                                           pROC::auc(bool, score) 21000.146
                            computeAUC(score[bool], score[!bool]) 11878.605
                                    mltools::auc_roc(score, bool)  5750.651
 ROCR::performance(ROCR::prediction(score, bool), "auc")@y.values  2899.573
                                               auroc(score, bool)   236.531
         lq       mean     median        uq        max neval  cld
 22005.3350 23738.3447 22206.5730 22710.853  32628.347   100    d
 12323.0305 16173.0645 12378.5540 12624.981 233701.511   100   c 
  6186.0245  6495.5158  6325.3955  6573.993  14698.244   100  b  
  3019.6310  3300.1961  3068.0240  3237.534  11995.667   100 ab  
   245.4755   253.1109   251.8505   257.578    300.506   100 a

arun · Answer 7 · 21 июля 2016

Комбинированный код из ISL 9.6.3 ROC Curves вместе с @J.Вон ответ на этот вопрос и еще несколько мест, следующий график кривой ROC и печатает AUC в правом нижнем углу графика.

Ниже probs числовой вектор предсказанных вероятностей длядвоичная классификация и test$label содержит истинные метки тестовых данных.

require(ROCR)
require(pROC)

rocplot <- function(pred, truth, ...) {
  predob = prediction(pred, truth)
  perf = performance(predob, "tpr", "fpr")
  plot(perf, ...)
  area <- auc(truth, pred)
  area <- format(round(area, 4), nsmall = 4)
  text(x=0.8, y=0.1, labels = paste("AUC =", area))

  # the reference x=y line
  segments(x0=0, y0=0, x1=1, y1=1, col="gray", lty=2)
}

rocplot(probs, test$label, col="blue")

Это дает график, подобный этому:

Max Ghenis · Answer 8 · 15 января 2013

В дополнение к ответам Эрика, вы также должны иметь возможность рассчитать ROC напрямую, сравнивая все возможные пары значений из pos.scores и neg.scores:

score.pairs <- merge(pos.scores, neg.scores)
names(score.pairs) <- c("pos.score", "neg.score")
sum(score.pairs$pos.score > score.pairs$neg.score) / nrow(score.pairs)

Конечно, менее эффективен, чем примерный подход или pROC :: auc, но более стабилен, чем первый, и требует меньше установки, чем последний.

Связано: когда я попробовал это, он дал результаты, аналогичные значению pROC, но не совсем то же самое (отключено на 0,02 или около того); результат был ближе к выборочному подходу с очень высоким N. Если у кого-то есть идеи, почему это может быть, мне было бы интересно.

Jussi Kujala · Answer 9 · 04 января 2017

В настоящее время топ-проголосовавший ответ неверен, потому что игнорирует связи.Когда положительные и отрицательные оценки равны, то AUC должен быть 0,5.Ниже исправлен пример.

computeAUC <- function(pos.scores, neg.scores, n_sample=100000) {
  # Args:
  #   pos.scores: scores of positive observations
  #   neg.scores: scores of negative observations
  #   n_samples : number of samples to approximate AUC

  pos.sample <- sample(pos.scores, n_sample, replace=T)
  neg.sample <- sample(neg.scores, n_sample, replace=T)
  mean(1.0*(pos.sample > neg.sample) + 0.5*(pos.sample==neg.sample))
}

George Dontas · Answer 10 · 05 февраля 2011

Я обычно использую функцию ROC из пакета DiagnosisMed.Мне нравится график, который он производит.AUC возвращается вместе с доверительным интервалом и также упоминается на графике.

ROC(classLabels,scores,Full=TRUE)

Рассчитать AUC в R?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 10 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Рассчитать AUC в R?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 10 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы