K означает кластеризацию с использованием Mahout - PullRequest
3 голосов
/ 25 ноября 2011

Я использую технику кластеризации, данную здесь для кластеризации большого набора данных, который приведен в примерах Mahout. Однако когда я визуализирую конкретную кластеризацию, я получаю следующий рисунок.

Mahout k-means visualization.

Я действительно изо всех сил пытаюсь понять, что это на самом деле означает, и у меня есть несколько вопросов.

  1. Что означают все цветные линии?
  2. Что значит так много кластеров?
  3. Почему немногие районы переполнены, а другие - нет?
  4. Почему несколько цветных линий перекрывают друг друга?

1 Ответ

3 голосов
/ 26 ноября 2011

k-means - не самый продвинутый метод кластеризации.Круги, как метод визуализации, вводят в заблуждение, они фактически разделяют пространство данных на ячейки Вороного (см. Его в Википедии).Он также предпочитает кластеры одинакового размера.

  1. Я предполагаю, что разные цвета указывают на разные итерации k-средних.Требуется несколько прогонов для оптимизации своего результата (который обычно достигает только локального минимума, и разные прогоны приводят к разным результатам).Таким образом, результаты еще не очень стабильны, я думаю.Они сдвигаются очень медленно, поэтому они не сильно перекрываются.

  2. Количество кластеров является параметром для k-средних.Это обычно обозначается как k.k-means не может определить количество кластеров, но вы можете проверить, какой результат лучше всего соответствует набору данных, если вы запустите его с несколькими значениями k.

  3. k-means непосмотрите на плотность.Для этого вам нужен алгоритм кластеризации на основе плотности.k-means предпочитает кластеры одинакового размера.Ваше «k», вероятно, слишком велико.

  4. Поскольку они итеративно обновляются, различные итерации не должны сильно перекрываться.

...