Ваш лектор может иметь в виду статью 2002 Veenman et al . Основная идея заключается в том, что вы устанавливаете максимально допустимую дисперсию в каждом кластере. Вы начинаете с столько кластеров, сколько точек данных, а затем «эволюционируете» кластеры на
- объединение соседних кластеров, если дисперсия результирующего кластера ниже порога
- изолирующие элементы, которые находятся "далеко", если дисперсия кластера выше порога
- или перемещение некоторых элементов между соседними кластерами, если это уменьшает сумму квадратов ошибок
(эта эволюция действует как глобальная процедура оптимизации и предотвращает плохие последствия первоначального назначения кластерных средств, которые вы имеете в k-средних)
Подводя итог, если вы знаете дисперсию, вы знаете, насколько разнообразными должны быть кластеры, поэтому проще, например, обнаруживать выбросы (которые обычно следует разделять на отдельные группы).