Question

У меня есть данные 2,4 миллиона строк и около 56 переменных.Я делал выборку из 10000 данных и делаю PCA в 10 измерениях

Затем я использую кластеризацию BIRCH в качестве k-средних, и иерархический показывал плохой коэффициент silhoutte.Scikit говорит, что сценарий использования BIRCH - это большой набор данных и сокращение данных

В результате я получаю 4 кластера с коэффициентом Silhoutte 0,4 (-1 - худший, 1 - лучший), который я считаюэто достаточно хорошо.Проблема в том, что первый размер кластера слишком велик, он получает 94% всех данных, в то время как другие кластеры получают только 6%

Так что мои вопросы таковы;Влияют ли PCA и выборка на результат кластеризации BIRCH?И что можно сделать для кластеризации, которая доминирует в размере?

Я думаю о том, чтобы либо сделать повторную кластеризацию до 94%, либо просто принять тот факт, что 94% моих данных действительно имеют один и тот же кластер.Спасибо

Размер кластера слишком велик после кластеризации BIRCH

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Размер кластера слишком велик после кластеризации BIRCH

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы