Мне пришлось искать что-то похожее в последние пару недель. Как и в большинстве случаев, найти правильное имя очень помогло. Вы ищете индекс кластерной достоверности.
Я нашел полезным источником для алгоритмов (и связанной математики) главу 17 «Теории кластеризации данных, алгоритмов и приложений» Гана, Ма и Ву. Недорого за $ 100 + от Amazon, но остальная часть книги будет полезна.
Несмотря на то, что он охватывает многие из этих индексов, в нем недостаточно подробно обсуждаются сильные и слабые стороны, поэтому вам нужен онлайн-поиск.
В конце концов я попробовал индекс Дэвиса Болдина и индекс Данна. Данн работал лучше, но очень медленно вычислял, потому что я остановился на упрощенной версии, в которой использовались расстояния центроид-центроид (а не составляющие расстояния между точками) и максимальный радиус от центроида, а не истинный диаметр. Пока это работает хорошо для меня.
В большинстве различных индексов используются показатели размера и разделения кластера.