Я пытаюсь сгруппировать набор данных с примерно 1 100 000 наблюдений, каждое из которых имеет три значения.
Код довольно прост в R
:
df11.dist <-dist(df11cl)
, где df11cl - это фрейм данных с тремя столбцами и 1 100 000 строк, и все значения в этом фрейме данных стандартизированы.
ошибка, которую я получаю: Error: cannot allocate vector of size 4439.0 Gb
Рекомендации по схожим проблемам включают увеличение объема оперативной памяти или порцию данных. У меня уже есть 64 ГБ ОЗУ, а моя виртуальная память составляет 171 ГБ, поэтому я не думаю, что увеличение объема ОЗУ является возможным решением. Также, насколько я знаю, порционные данные в иерархическом анализе данных дают разные результаты. Итак, кажется, что использование выборки данных не подлежит сомнению.
Я также нашел это решение , но ответы на самом деле меняют вопрос. Они технически советуют k-means. K-means может сработать, если заранее знать количество кластеров. Я не знаю количество кластеров. Тем не менее, я запустил k-means, используя различное количество кластеров, но теперь я не знаю, как оправдать выбор одного из другого. Есть какой-нибудь тест, который может помочь?
Можете ли вы порекомендовать что-нибудь в R
или python
?