Я хочу сравнить два раздела, используя Скорректированный индекс Рэнда.
Первый раздел содержит n разделенных кластеров (без перекрытия).
Второй содержит m кластеров, перекрывающихся.
Когда элемент существует в 2 разных кластерах, я считаю его дважды и даю ему два разных индекса. Это не может быть применено к ARI.
Эта иллюстрация предназначена для того, чтобы прояснить проблему:
Пусть S и P 2 раздела, где:
S={CLUSTER1, CLUSTER2}
CLUSTER1={A,B}
CLUSTER2={C}
Вектор индексов, связанный с S: V1=[1,1,2]
P={Group1, Group2, Group3}
Group1={A}
Group2={A,B}
Group3={B,C}
Вектор индексов, связанный с P: V1=[1,2,2,3,3]
Это, конечно, не сработает. Потому что за проблемой калибровки нет порядка.
У вас есть идеи по поводу решения этих проблем?
Я думаю о тестировании S с P 'и S с P "... где P' - это раздел, который немного похож на P, но где нет перекрытия. Например: P'=[{}, {A,B}, {C}]