Scikit-learn: оценка ARI для оценки кластера - PullRequest
1 голос
/ 17 марта 2020

Я рассчитываю показатель индекса Скорректированного ранда для , оценивая производительность кластера . Предположим, что истинный кластер и предсказанный кластер выглядят следующим образом. Формат {i, "x"} говорит о том, что элемент "x" находится в кластере ith.

>>> labels_true = [{0,"a"}, {0,"b"}, {0,"c"}, {1,"d"}, {1,"e"}, {1,"f"}]
>>> labels_pred = [{0,"a"}, {0,"b"}, {1,"c"}, {1,"d"}, {2,"e"}, {2,"f"}]
>>> metrics.adjusted_rand_score(labels_true, labels_pred)

Оценка ARI приближается к 1,0, но, похоже, она не должна быть 1,0, поскольку прогнозируемый кластер отличается от истинный.

Мне интересно, является ли это верным способом расчета показателя ARI.

1 Ответ

0 голосов
/ 04 апреля 2020

Вы просто должны поместить метки в функцию оценки ARI:
labels_true = [0, 0, 0, 1, 1, 1]
labels_pred = [0, 0, 1, 1, 2, 2]
metrics.adjusted_rand_score(labels_true, labels_pred)

...