Производительность k-средних оценивается по разным показателям - PullRequest
1 голос
/ 24 октября 2019

Я пытаюсь оценить кластеры, сгенерированные с помощью K-средних, с разными метриками, но я не уверен в том, хорошие результаты или нет.

У меня есть 40 документов для кластеризации в 6 категориях. Сначала я преобразовал их в векторы tf-idf, а затем сгруппировал их с помощью K-средних (k = 6). Наконец, я попытался оценить результаты по разным показателям.

Поскольку у меня есть настоящие ярлыки документов, я попытался вычислить оценку и точность F1. Но я также хочу знать производительность для показателей, которые не нуждаются в реальных метках, таких как оценка силуэта.

Для оценки F1 и точности результаты составляют около 0,65 и 0,88 соответственно, тогда как для оценки силуэта этотолько около 0,05, что означает, что у меня могут быть перекрывающиеся кластеры.

В таком случае, могу ли я сказать, что результаты приемлемы? Или я должен решить проблему с перекрытием, пытаясь использовать другие методы вместо tf-idf для представления документов или других алгоритмов для кластеризации?

1 Ответ

0 голосов
/ 25 октября 2019

С такими крошечными наборами данных вам действительно нужно , чтобы использовать меру, которая скорректирована на случайность .

Выполните следующие действия: пометите каждый документ случайным образом с помощьюцелое число 1..6. Какую оценку вы получите? Теперь повторите это 100 раз, какой лучший результат вы получите? Совершенно случайный результат может сравнительно неплохо набрать такие крошечные данные!

Из-за этой проблемы стандартная мера 1010 *, используемая при кластеризации, представляет собой скорректированный индекс Рэнда (ARI) ,Аналогичная настройка также существует для NMI: Скорректированная взаимная информация или AMI. Но AMI встречается гораздо реже.

...