Есть несколько других показателей достоверности кластера, которые я использовал в некоторых исследованиях, которые я проводил при доступе к методам кластеризации. В тех случаях, когда у вас есть набор данных, помеченный классами (контролируемая кластеризация), вы можете использовать точность и отзыв, как упоминалось выше, или чистоту и энтропию.
Чистота кластера = количество вхождений наиболее часто встречающегося класса / размер кластера (это должно быть высоким)
Энтропия кластера = мера рассеянных классов с кластером (это должно быть низким)
В тех случаях, когда у вас нет меток классов (неконтролируемая кластеризация), внутреннее и внешнее сходство являются хорошими мерами.
Внутрикластерное сходство для одного кластера = среднее косинусное сходство всех пар в кластере (должно быть высоким)
Межкластерное сходство для одного кластера = средний косинус сим всех элементов в одном кластере по сравнению со всеми элементами в каждом другом кластере (это должно быть низким)
В этой статье содержатся некоторые хорошие описания всех четырех из этих мер.
http://glaros.dtc.umn.edu/gkhome/fetch/papers/edcICAIL05.pdf
Хорошая связь с неконтролируемой F-мерой, я сейчас разбираюсь с этим.