У меня есть кластеры золотого стандарта и кластеры системных результатов, как показано ниже:
gold_clusters={cluster1={A,B}, cluster2={C,D}, cluster3={E,F}}
system_result={cluster1={A,B,E}, cluster2{C}, cluster3={D}, cluster3={F}}
Я пытаюсь оценить системный результат, но потерялся со всеми доступными метриками оценки кластеризации, такими как стандарт F1, bCubed и ARI. Какой показатель оценки вы рекомендуете для этого?
Должен ли я просто перебрать кластеры золотого стандарта, найти наиболее похожий кластер и вычислить F1, а затем взять общее среднее значение?
как насчет внешней оценки (т.е. оштрафовать систему за количество сгенерированных кластеров)?
Помогите, я в замешательстве?