Мой набор данных имеет размер 1 000 000 записей. Каждая запись дает мне информацию о размере рубашки, цене и местонахождении рубашки. Я хочу классифицировать эти данные по марке рубашки .. из источника набора данных, который я знаю, в наборе данных содержится 500 различных марок рубашек.
Могу ли я использовать алгоритм кластеризации с 500 кластерами ?. Я планирую использовать K-Means, есть ли какие-либо ограничения на количество кластеров, в основном я видел примеры K-Means, используемых для кластеризации, скажем, от 5 до 10 кластеров. Я не видел пример, где количество кластеров было 500.
Считаете ли вы, что K-Means - лучшее, или я должен выбрать что-то еще?