Необходимо сравнить сходство кластеров K-средних - PullRequest
0 голосов
/ 01 ноября 2019

Мне нужно сравнить сходство кластеров, но методы кластеризации дают кластеры, не равные по длине.

Допустим, у меня есть 4 точки данных A, B, C и D. и предположим, что этот набор данных является изменением за определенный период времени. Я запускаю кластеризацию KMeans на этих данных в первый час и получаю 3 кластера [(A, B), (C), (D)]. Затем я запускаю кластеризацию KMeans на этих данных снова во второй час и получаю еще 3 кластера [(B, C), (A), (D)] и т. Д.

Мне нужно измерить измененияэти кластеры с течением времени сравнивают кластеры в первый час со вторым и присваивают оценку сходства.

Например:

Третий кластер в первый час больше похож на третийкластер во второй час со 100% и здесь нет никаких проблем, но проблема в том, как я измеряю другие.

1- (A, B) начались вместе, тогда они рассеялись, если сказал (A, B), как (B, C) с 50%.

2- Я не смогу присвоить оценку между (A, B) с (A) и (C) с (A, B), потому что онине одинаковой длины, и если следовать методологии их подсчета, я получу несколько одинаковых баллов.

Если у кого-то есть идея решить эту проблему.

1 Ответ

0 голосов
/ 01 ноября 2019

проверьте эту идею, посмотрите, работает ли она: 1 - запустите кластеризацию по среднему k и сохраните центроиды в любой желаемый период времени 2 - измеряя движение центроидов, которое вы можете сравнивать каждый час

надеюсь, что это такпомог бы!

...