Что делать, если в кластере K-Means есть только одна точка данных? - PullRequest
0 голосов
/ 21 ноября 2019

Я использую пополам K-средства, которые используют k-средних с k = 2, и я столкнулся только с 1 точкой данных в 1 кластере. Означает ли это, что процесс K-Means должен остановиться, потому что он достиг сходимости, или я должен начать процесс алгоритма заново с новыми значениями?

1 Ответ

0 голосов
/ 24 ноября 2019

1-элементные кластеры довольно часто встречаются в k-средних на грязных данных.

Поскольку k-means минимизирует квадратов ошибок , назначение точек выброса для их собственного кластера дает "оптимальные" результатыпо отношению к квадрату ошибки цели. Так что часто является правильным результатом - это просто не то, что пользователь действительно хотел . Часто пользователь предпочел бы неквадратную оптимизацию (например, с использованием PAM) или метод, который имеет понятие «шумовых» точек, которые не принадлежат кластеру (например, DBSCAN).

...