Я рассчитываю показатель индекса Скорректированного ранда для , оценивая производительность кластера . Предположим, что истинный кластер и предсказанный кластер выглядят следующим образом. Формат {i, "x"}
говорит о том, что элемент "x"
находится в кластере ith
.
>>> labels_true = [{0,"a"}, {0,"b"}, {0,"c"}, {1,"d"}, {1,"e"}, {1,"f"}]
>>> labels_pred = [{0,"a"}, {0,"b"}, {1,"c"}, {1,"d"}, {2,"e"}, {2,"f"}]
>>> metrics.adjusted_rand_score(labels_true, labels_pred)
Оценка ARI приближается к 1,0, но, похоже, она не должна быть 1,0, поскольку прогнозируемый кластер отличается от истинный.
Мне интересно, является ли это верным способом расчета показателя ARI.