Размер кластера слишком велик после кластеризации BIRCH - PullRequest
0 голосов
/ 12 февраля 2019

У меня есть данные 2,4 миллиона строк и около 56 переменных.Я делал выборку из 10000 данных и делаю PCA в 10 измерениях

Затем я использую кластеризацию BIRCH в качестве k-средних, и иерархический показывал плохой коэффициент silhoutte.Scikit говорит, что сценарий использования BIRCH - это большой набор данных и сокращение данных

В результате я получаю 4 кластера с коэффициентом Silhoutte 0,4 (-1 - худший, 1 - лучший), который я считаюэто достаточно хорошо.Проблема в том, что первый размер кластера слишком велик, он получает 94% всех данных, в то время как другие кластеры получают только 6%

Так что мои вопросы таковы;Влияют ли PCA и выборка на результат кластеризации BIRCH?И что можно сделать для кластеризации, которая доминирует в размере?

Я думаю о том, чтобы либо сделать повторную кластеризацию до 94%, либо просто принять тот факт, что 94% моих данных действительно имеют один и тот же кластер.Спасибо

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...