В настоящее время я изучаю CluStream , и у меня есть некоторые сомнения относительно результатов. Я перейду к объяснению:
Если микрокластеры кластеризованы с использованием K-средств, мы все знаем, что каждый микрокластер будет принадлежать ближайшему макрокластеру (вычисляя евклидово расстояние между центрами).
Теперь, глядя на следующий пример результата:
мы можем видеть, что макрокластеры не группируют всемикрокластеры ...
Что это значит? Как мы должны рассматривать микрокластеры, которые не лежат внутри некоторого макрокластера? Должен ли я найти каждый микрокластер, ближайший макрокоманду, чтобы пометить их?
РЕДАКТИРОВАТЬ:
Проверка исходного кода MOA на Github , я обнаружил, что радиус макрокластера вычисляется , умножая AVG отклонения на так называемый 'коэффициент радиуса' (это значение фиксировано на 1,8) . Однако, когда я спрашиваю макрокластеры об их весах, , если используется огромное временное окно и отсутствует компонент замирания, я вижу, что макрокластеры возобновляют информацию всех точек ... все текущие микрокластеры считаются! Таким образом, даже если мы видим некоторые микрокластеры, которые остаются вне сфер макрокластеров, мы знаем, что они принадлежат к ближайшей - это значит K в конце концов!
Итак, у меня все еще есть вопрос: зачем рассчитывать радиус макрокластера таким образом? Я имею в виду, что это представляет? Разве алгоритм не должен вместо этого возвращать помеченные микрокластеры?
Любые отзывы приветствуются. ТИА!