K-означает, выбирает точки с вероятностью .
Но да, с экстремальными выбросами он может выбрать выброс.
То есть отлично , потому что так будет и k-означает.Скорее всего, лучшее SSQ-решение имеет одноэлементный кластер, содержащий только эту точку.
Если у вас есть такие данные, решения k-средних имеют тенденцию быть довольно бесполезными, и вам, вероятно, следует выбрать другой алгоритм, такой как DBSCAN.вместо этого.