отзыв и точность для мультиклассовой кластеризации - PullRequest
0 голосов
/ 26 октября 2018

Мне сложно понять, как измерить точность и вспомнить мультиклассовую кластеризацию. Вот пример с 9 элементами:

с учетом следующей основной истины:

A,B,C,D
E,F,G
H,I

и следующая наблюдаемая кластеризация:

A,B,C
D
E,F,G,H,I

как рассчитать количество истинных положительных результатов (TP), ложных срабатываний (FP) и ложных отрицательных значений (FN)?

Мой наивный подход состоял в том, чтобы рассмотреть все пары элементов:

TP = 7 (A-B, A-C, B-C, E-F, E-G, F-G, H-I)
FP = 6 (E-H, E-I, F-H, F-I, G-H, G-I)
FN = 3 (A-D, B-D, C-D)

Это правильный способ сделать это?

Спасибо

1 Ответ

0 голосов
/ 27 октября 2018

Да, TP и т. Д. Выглядят хорошо для меня с первого взгляда.

Но перечисление всех пар медленно .

Вы можете сделать лучше: вы можете напрямую вычислятьколичество пар из матрицы кросс-табуляции.

Должно быть TP = 3 * 2/2 + 3 * 2/2 + 2 * 1/2 = 7

FN = 3 *2/2 + 5 * 4/2-TP = 13-7 = 6

FP = 4 * 3/2 + 3 * 2/2 + 2 * 1/2-TP = 10-7 = 3

и т. Д.

Но тогда лучше вычислить Скорректированный индекс Рэнда (ARI) .Поскольку вам нужен показатель, при котором случайный результат оценивается только близко к 0. С точностью и отзывом результаты, как правило, выглядят намного лучше, чем они есть.

...