Фон: у меня есть несколько матриц данных, каждая из которых содержит 2000 столбцов и ~ 21,0000 строк. Я выполняю анализ K-средних, а затем создаю тепловую карту данных кластера. Я работаю в R.
Проблема: вместо того, чтобы просто предварительно выбрать номер кластера K-средних и путем проб и ошибок выбрать, какой график "выглядит лучше", я пытаюсь использовать инструмент, который что-то выполнит. например, методы локтя или силуэта для определения оптимального количества кластеров. Я пробовал nclust (до реализации nclust я использовал пакет amap для вычисления матрицы расстояний). Моя проблема в том, что через ~ 5 часов он не работает sh. Я не получаю ошибок или предупреждений. Я подключаюсь к серверу для получения этих данных; в конце концов я все равно теряю соединение, поэтому я не могу ждать много часов, помимо практических соображений.
Вопрос: есть ли практическое решение или инструмент, который может обрабатывать большую матрицу для определения оптимального # кластера для k-средних анализ?