Допустим, у нас есть n точек, и у нас также есть k центров, что минимизирует сумму квадратов расстояний до n точек, так что каждая точка из n идет к ближайшей точке из k точек, то есть у нас есть K- средства. Предположим также, что мы знаем, что данные распределены по k точкам с нормальным распределением с одинаковым стандартным отклонением. Поскольку существует вероятность, что точка из одного центра будет ближе к другому центру, мы ожидаем, что K-средние будут близки к фактическим k-центрам, но они будут притягиваться друг к другу, так что 2 точки, расположенные близко друг к другу, будут равны ближе, чем они есть на самом деле. Например, если k = 3, d = 1 и основная истина:
1, 2, 3.
K-средство будет примерно таким:
1.01 , 2, 2.99
Так как несколько точек из 1 были сопоставлены с 2, а несколько из 2 были сопоставлены с 1, то же самое с 2 и 3 и 1 и 3.
И чем больше, тем стандартное отклонение или чем ближе точки друг к другу, тем больше будет эффект притяжения.
Итак, мой вопрос: есть ли какой-либо алгоритм для решения этой проблемы с притяжением, предполагая, что мы знаем стандартное отклонение? Я искал, но ничего не нашел по этой проблеме.