оценка для кластеризации - оценка результата системы - PullRequest
0 голосов
/ 02 апреля 2019

У меня есть кластеры золотого стандарта и кластеры системных результатов, как показано ниже:

 gold_clusters={cluster1={A,B}, cluster2={C,D}, cluster3={E,F}}

 system_result={cluster1={A,B,E}, cluster2{C}, cluster3={D}, cluster3={F}} 

Я пытаюсь оценить системный результат, но потерялся со всеми доступными метриками оценки кластеризации, такими как стандарт F1, bCubed и ARI. Какой показатель оценки вы рекомендуете для этого?

Должен ли я просто перебрать кластеры золотого стандарта, найти наиболее похожий кластер и вычислить F1, а затем взять общее среднее значение? как насчет внешней оценки (т.е. оштрафовать систему за количество сгенерированных кластеров)?

Помогите, я в замешательстве?

...