оценка кластеризации с учетом количества кластеров - PullRequest
0 голосов
/ 04 мая 2018

Я знаю, как рассчитать Recall, Precision и F_measure для кластеров, как описано в этом курсе https://www.coursera.org/learn/cluster-analysis/lecture/BcYhV/6-4-external-measures-1-matching-based-measures

Однако, что, если число кластеров, сгенерированных моей системой, больше, чем число кластеров в основной правде, как мы можем рассчитать эти меры?

Кажется, что нет никаких штрафов для систем, генерирующих больше кластеров, так как мы просто сопоставляем каждый кластер в основной точке зрения с лучшим кластером, сгенерированным из моей системы. Я что-то здесь упускаю?

1 Ответ

0 голосов
/ 04 мая 2018

Не вычисляйте их как в классификации !!!

Либо вам нужно работать с парами точек - это наиболее распространенный подход, используемый очень популярным показателем ARI.

Или вам нужно найти кластер с максимальным перекрытием, который иногда называют «совпадающим». Я не убежден в этом подходе.

И последнее, но не менее важное: вы можете использовать венгерский алгоритм, чтобы найти наилучшее частичное соответствие 1: 1, и считать несопоставленные кластеры ложными.

...