Могу ли я иметь кластеры в диапазоне от 500 до 2000 при построении кластеров неконтролируемой классификации - PullRequest
0 голосов
/ 31 августа 2018

Мой набор данных имеет размер 1 000 000 записей. Каждая запись дает мне информацию о размере рубашки, цене и местонахождении рубашки. Я хочу классифицировать эти данные по марке рубашки .. из источника набора данных, который я знаю, в наборе данных содержится 500 различных марок рубашек.

Могу ли я использовать алгоритм кластеризации с 500 кластерами ?. Я планирую использовать K-Means, есть ли какие-либо ограничения на количество кластеров, в основном я видел примеры K-Means, используемых для кластеризации, скажем, от 5 до 10 кластеров. Я не видел пример, где количество кластеров было 500.

Считаете ли вы, что K-Means - лучшее, или я должен выбрать что-то еще?

1 Ответ

0 голосов
/ 31 августа 2018

Это зависит от ваших данных, но, вообще говоря, k-means работает для «среднего» размера кластеров (возможно, 5-25).

См. страницу документации scikit-learns по кластеризации , она содержит простую таблицу, в которой сравниваются некоторые методы кластеризации.
В соответствии с этим вместо k-средних следует использовать «иерархическую кластеризацию Уорда», «агломерационную кластеризацию» или «березу».

...