Простой подход к внешним методам, в которых есть основополагающая истина, заключается в использовании метрики расстояния между кластеризациями;наземная истина просто считается кластеризацией.Двумя хорошими мерами, которые следует использовать, являются «Вариация информации» Мейлы и, по моему скромному мнению, разделенная дистанция соединения, также обсуждаемая Мейлой.Я не рекомендую индекс Миркина или индекс Рэнда - я написал больше об этом здесь, на stackexchange .
Эти метрики могут быть разделены на две составные части, каждая из которых представляет расстояниеодин из кластеров к крупнейшему общему субкластеру.Стоит рассмотреть обе части;если доля истинного основания (для общей подгруппы) очень мала, это означает, что проверенная кластеризация близка к сверхскоплению;если другая часть мала, это означает, что тестируемая кластеризация близка к общему подкластеру и, следовательно, близка к подкластеризации основной истины.В обоих случаях можно сказать, что кластеризация совместима с основной истиной.Для получения дополнительной информации см. Ссылку выше.