Оптимальный номер кластера K-средних для больших данных (R) - PullRequest
0 голосов
/ 05 мая 2020

Фон: у меня есть несколько матриц данных, каждая из которых содержит 2000 столбцов и ~ 21,0000 строк. Я выполняю анализ K-средних, а затем создаю тепловую карту данных кластера. Я работаю в R.

Проблема: вместо того, чтобы просто предварительно выбрать номер кластера K-средних и путем проб и ошибок выбрать, какой график "выглядит лучше", я пытаюсь использовать инструмент, который что-то выполнит. например, методы локтя или силуэта для определения оптимального количества кластеров. Я пробовал nclust (до реализации nclust я использовал пакет amap для вычисления матрицы расстояний). Моя проблема в том, что через ~ 5 часов он не работает sh. Я не получаю ошибок или предупреждений. Я подключаюсь к серверу для получения этих данных; в конце концов я все равно теряю соединение, поэтому я не могу ждать много часов, помимо практических соображений.

Вопрос: есть ли практическое решение или инструмент, который может обрабатывать большую матрицу для определения оптимального # кластера для k-средних анализ?

...