Необычно большой размер кластера иерархическая кластеризация в Python - PullRequest
0 голосов
/ 18 сентября 2018

Я пробую иерархическую кластеризацию в Python с евклидовыми расстояниями.Один из кластеров содержит почти 80% данных.Как мне с этим справиться?

1 Ответ

0 голосов
/ 19 сентября 2018

Ваши данные подвержены выбросам?Это может означать, что другие точки данных, которые составляют 20%, являются выбросами и являются результатом ошибочных измерений или чего-то подобного ... или, по крайней мере, эти данные сильно удалены от других 80% ...

Возьмите кластер, который содержит 80%, и остальные, которые составляют оставшиеся 20%, и изучите их данные отдельно.

...