MOA CluStream: Что мы должны «назвать» микрокластерами, которые не лежат ни в одном из макрокластеров после вычисления k средних? - PullRequest
0 голосов
/ 11 декабря 2019

В настоящее время я изучаю CluStream , и у меня есть некоторые сомнения относительно результатов. Я перейду к объяснению:

Если микрокластеры кластеризованы с использованием K-средств, мы все знаем, что каждый микрокластер будет принадлежать ближайшему макрокластеру (вычисляя евклидово расстояние между центрами).

Теперь, глядя на следующий пример результата:

enter image description here

мы можем видеть, что макрокластеры не группируют всемикрокластеры ...

Что это значит? Как мы должны рассматривать микрокластеры, которые не лежат внутри некоторого макрокластера? Должен ли я найти каждый микрокластер, ближайший макрокоманду, чтобы пометить их?

РЕДАКТИРОВАТЬ:

Проверка исходного кода MOA на Github , я обнаружил, что радиус макрокластера вычисляется , умножая AVG отклонения на так называемый 'коэффициент радиуса' (это значение фиксировано на 1,8) . Однако, когда я спрашиваю макрокластеры об их весах, , если используется огромное временное окно и отсутствует компонент замирания, я вижу, что макрокластеры возобновляют информацию всех точек ... все текущие микрокластеры считаются! Таким образом, даже если мы видим некоторые микрокластеры, которые остаются вне сфер макрокластеров, мы знаем, что они принадлежат к ближайшей - это значит K в конце концов!

Итак, у меня все еще есть вопрос: зачем рассчитывать радиус макрокластера таким образом? Я имею в виду, что это представляет? Разве алгоритм не должен вместо этого возвращать помеченные микрокластеры?

Любые отзывы приветствуются. ТИА!

1 Ответ

0 голосов
/ 13 декабря 2019

Ключевой вопрос: что нужно пользователю?

Маркировка микрокластеров - это нормально, но где польза для пользователя?

В большинстве случаев все, что люди используютРезультатом k-средних являются кластерные центры. Поскольку вся цель k-средних по сути заключается в том, чтобы «найти наилучшее приближение k-точек к данным».

Таким образом, вероятно, что вся информация, которую собираются использовать пользователи CluStream, - это k текущих центров кластеров. может быть, вес каждого и их возраст.

...