Каков наилучший способ кластеризации набора данных без меток и без представления о количестве требуемых кластеров?
Например, при использовании набора данных Iris без меток или знания количества классов меток.
Моя идея:
Были предложены десятки способов выбора k.
Некоторые варианты, такие как x-means, могут динамически регулировать k, вам нужно только дать максимум - и выбрать критерий качества AIC или BIC.
Что вы можете сделать, это построить кривую колена при разных значениях K, как описано здесь
В частности,
1) Идея коленаметод состоит в том, чтобы запустить кластеризацию k-средних в наборе данных для диапазона значений k (скажем, k от 1 до 10 в приведенных выше примерах) и для каждого значения k вычислить сумму квадратов ошибок (SSE). 2) Затем постройте линейную диаграмму SSE для каждого значения k.Если линейный график выглядит как рука, то «локоть» на руке является лучшим значением k * 3) Поэтому наша цель состоит в том, чтобы выбрать небольшое значение k, которое все еще имеет низкое значениеSSE, и локоть обычно представляет, где мы начинаем иметь уменьшающуюся отдачу, увеличивая k
1) Идея коленаметод состоит в том, чтобы запустить кластеризацию k-средних в наборе данных для диапазона значений k (скажем, k от 1 до 10 в приведенных выше примерах) и для каждого значения k вычислить сумму квадратов ошибок (SSE).
2) Затем постройте линейную диаграмму SSE для каждого значения k.Если линейный график выглядит как рука, то «локоть» на руке является лучшим значением k *
3) Поэтому наша цель состоит в том, чтобы выбрать небольшое значение k, которое все еще имеет низкое значениеSSE, и локоть обычно представляет, где мы начинаем иметь уменьшающуюся отдачу, увеличивая k