Мне нужно сравнить сходство кластеров, но методы кластеризации дают кластеры, не равные по длине.
Допустим, у меня есть 4 точки данных A, B, C и D. и предположим, что этот набор данных является изменением за определенный период времени. Я запускаю кластеризацию KMeans на этих данных в первый час и получаю 3 кластера [(A, B), (C), (D)]. Затем я запускаю кластеризацию KMeans на этих данных снова во второй час и получаю еще 3 кластера [(B, C), (A), (D)] и т. Д.
Мне нужно измерить измененияэти кластеры с течением времени сравнивают кластеры в первый час со вторым и присваивают оценку сходства.
Например:
Третий кластер в первый час больше похож на третийкластер во второй час со 100% и здесь нет никаких проблем, но проблема в том, как я измеряю другие.
1- (A, B) начались вместе, тогда они рассеялись, если сказал (A, B), как (B, C) с 50%.
2- Я не смогу присвоить оценку между (A, B) с (A) и (C) с (A, B), потому что онине одинаковой длины, и если следовать методологии их подсчета, я получу несколько одинаковых баллов.
Если у кого-то есть идея решить эту проблему.