Улучшение кластеризации k-средних - PullRequest
12 голосов
/ 10 января 2011

В моих лекционных заметках по компьютерному зрению упоминается, что производительность алгоритма кластеризации k-средних можно улучшить, если мы знаем стандартное отклонение кластеров .Как так?

Я думаю, что мы можем использовать стандартные отклонения, чтобы сначала получить лучшую начальную оценку путем сегментации на основе гистограммы.Как вы думаете?Спасибо за любую помощь!

1 Ответ

15 голосов
/ 10 января 2011

Ваш лектор может иметь в виду статью 2002 Veenman et al . Основная идея заключается в том, что вы устанавливаете максимально допустимую дисперсию в каждом кластере. Вы начинаете с столько кластеров, сколько точек данных, а затем «эволюционируете» кластеры на

  • объединение соседних кластеров, если дисперсия результирующего кластера ниже порога
  • изолирующие элементы, которые находятся "далеко", если дисперсия кластера выше порога
  • или перемещение некоторых элементов между соседними кластерами, если это уменьшает сумму квадратов ошибок

(эта эволюция действует как глобальная процедура оптимизации и предотвращает плохие последствия первоначального назначения кластерных средств, которые вы имеете в k-средних)

Подводя итог, если вы знаете дисперсию, вы знаете, насколько разнообразными должны быть кластеры, поэтому проще, например, обнаруживать выбросы (которые обычно следует разделять на отдельные группы).

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...