Как группировать пользователей, даже если у них очень разное статистическое распределение? - PullRequest
0 голосов
/ 06 января 2019


Можете ли вы объяснить, как группировать пользователей, даже если у них очень разное статистическое распределение?
Это кажется неконтролируемой проблемой. Я знаю, что K-средства обычно используются для кластеризации, но действительно ли K-средства действительно эффективны, когда пользователи имеют очень разное статистическое распределение?
Спасибо.

1 Ответ

0 голосов
/ 06 января 2019

K-означает, действительно, лучше всего работает, когда все кластеры имеют одинаковое распределение ошибок вокруг их среднего, то есть, если они все следуют N (mu_j, eps).

Но есть как минимум 100 алгоритмов кластеризации. Просто выберите тот, который лучше соответствует вашим данным. Например, DBSCAN предполагает, что каждый кластер является плотным, а кластеры разделены промежутками низкой плотности. Он не может хорошо кластеризовать перекрывающихся гауссианов, но он будет хорошо работать с хорошо разделенными кластерами разных распределений.

...