Я пытаюсь оценить кластеры, сгенерированные с помощью K-средних, с разными метриками, но я не уверен в том, хорошие результаты или нет.
У меня есть 40 документов для кластеризации в 6 категориях. Сначала я преобразовал их в векторы tf-idf, а затем сгруппировал их с помощью K-средних (k = 6). Наконец, я попытался оценить результаты по разным показателям.
Поскольку у меня есть настоящие ярлыки документов, я попытался вычислить оценку и точность F1. Но я также хочу знать производительность для показателей, которые не нуждаются в реальных метках, таких как оценка силуэта.
Для оценки F1 и точности результаты составляют около 0,65 и 0,88 соответственно, тогда как для оценки силуэта этотолько около 0,05, что означает, что у меня могут быть перекрывающиеся кластеры.
В таком случае, могу ли я сказать, что результаты приемлемы? Или я должен решить проблему с перекрытием, пытаясь использовать другие методы вместо tf-idf для представления документов или других алгоритмов для кластеризации?