вопросы по методам кластеризации - PullRequest
6 голосов
/ 04 ноября 2010

недавно я пришел изучать кластеризацию в интеллектуальном анализе данных, и я изучал последовательную кластеризацию и иерархическую кластеризацию и k-средних.

Я также читал об утверждении, которое отличает k-means от двух других техник кластеризации, говоря, что k-means не очень хорошо справляется с номинальными атрибутами, но текст не объясняет этого. Разница, которую я вижу, в том, что для K-средних мы заранее будем знать, что нам потребуется ровно K кластеров, в то время как мы не знаем, сколько кластеров нам нужно для двух других методов кластеризации.

Так может ли кто-нибудь дать мне некоторое представление о том, почему такое утверждение существует, то есть у k-means есть эта проблема при работе с примерами номинальных атрибутов и есть ли способ преодолеть это?

Заранее спасибо.

1 Ответ

5 голосов
/ 04 ноября 2010

Алгоритм k-средних вычисляет центроиды кластера, принимая средние значения всех точек в кластере.Если параметр является номинальным, вы не можете принять среднее значение.

Иногда номинальные значения можно упорядочить в некотором порядке и затем сопоставить с реальными значениями.Например, дни недели могут быть сопоставлены с диапазоном [1.0-7.0], но иногда это невозможно, например, атрибут со значениями [Windows, Linux, OSX].

...