Как получить кластер из образца с иерархической кластеризацией? - PullRequest
0 голосов
/ 09 мая 2019

Чтобы найти кластер, которому принадлежит невидимая выборка,

k-средних хранит центроиды для каждого кластера.Просто кластер с ближайшим центроидом - это кластер, к которому принадлежит новый образец.

Тогда как насчет иерархической кластеризации?Как найти кластер, к которому принадлежит новый образец?

Аналогично, в случае совместной кластеризации мы получаем только идентификатор кластера для строк и столбцов (отдельно) обучающих данных после кластеризации.

Другими словами, учитывая образец с m объектами (столбцами), нам нужно как-то найти кластер, которому принадлежит каждый объект.Может кто-нибудь объяснить мне, как это достигается на практике?Если мое предположение неверно, можете ли вы указать мне правильное направление?

Спасибо

1 Ответ

0 голосов
/ 10 мая 2019

Нет.

Целью кластеризации не является маркировка новых точек данных.K-означает, в некотором смысле, исключение, потому что очевидно, какое правило использовать (ближайший центр), но даже для k-средних результат обозначения точки таким образом не обязательно будет таким же, как запуск kmeans (X u {x}) настарые данные плюс новая точка.Так что это не согласуется.

Для других алгоритмов, таких как иерархическая кластеризация, этот эффект хуже.Одна новая точка данных может привести к слиянию двух кластеров, например!

Что вы можете сделать - и, как кажется, является общим решением - это использовать вывод кластеризации для обучения классификатора .Этот классификатор затем можно использовать для прогнозирования меток кластера.Медленным, но распространенным выбором будет (k = 1-) классификатор ближайшего соседа.

...