У меня есть данные 2,4 миллиона строк и около 56 переменных.Я делал выборку из 10000 данных и делаю PCA в 10 измерениях
Затем я использую кластеризацию BIRCH в качестве k-средних, и иерархический показывал плохой коэффициент silhoutte.Scikit говорит, что сценарий использования BIRCH - это большой набор данных и сокращение данных
В результате я получаю 4 кластера с коэффициентом Silhoutte 0,4 (-1 - худший, 1 - лучший), который я считаюэто достаточно хорошо.Проблема в том, что первый размер кластера слишком велик, он получает 94% всех данных, в то время как другие кластеры получают только 6%
Так что мои вопросы таковы;Влияют ли PCA и выборка на результат кластеризации BIRCH?И что можно сделать для кластеризации, которая доминирует в размере?
Я думаю о том, чтобы либо сделать повторную кластеризацию до 94%, либо просто принять тот факт, что 94% моих данных действительно имеют один и тот же кластер.Спасибо