K-средняя кластеризация, почему разные начальные позиции кластеров влияют на конечный результат кластеризации? - PullRequest
1 голос
/ 02 февраля 2011

Я не уверен, подходит ли этот вопрос здесь. Во всяком случае, кажется, что люди здесь полезны. Так вот мой вопрос.

В случае кластеризации k-средних необходимо указать начальные позиции кластеров. почему разные начальные позиции кластеров влияют на конечный результат кластеризации?

1 Ответ

3 голосов
/ 03 февраля 2011

Когда вы используете k-means, проблема, которую вы действительно хотите решить, состоит в минимизации суммы квадратов в пределах кластера (WCSS). Нет эффективного способа точно решить эту проблему (даже для 2-х точек). В более техническом плане WCSS - это NP-сложная проблема.

k-means - это итерационный метод, который находит приближенное решение проблемы WCSS, эта общая схема, используемая k-means, представляет собой метод максимизации ожидания. Большинству итеративных методов требуется начальная точка, и в целом качество решения будет зависеть от начальной точки.

...