Кластеризация переменных в R и использование памяти - PullRequest
0 голосов
/ 30 ноября 2018

Я пытаюсь вычислить кластеры некоторых переменных в R с помощью библиотеки кластеров.Код выглядит следующим образом:

d2 <- dist(ant, method = "euclidian")

Проблема в том, что показывает это сообщение:

Error: cannot allocate vector of size 123.5 Gb

Невозможно иметь такой объем памяти.Мой фрейм данных содержит более 180000 строк и 12 столбцов.Любое предложение?

1 Ответ

0 голосов
/ 30 ноября 2018
  1. Выберите подход, для которого не требуется матрица парных расстояний , которая всегда требует O (n²) памяти ... Таких алгоритмов существует несколько.

  2. Сначала упростите ваши данные.Например, объедините дубликаты в веса и используйте алгоритм / реализацию, которая поддерживает взвешенные точки.

  3. Подвыборка.Если у вас есть столько очков, вам, вероятно, не нужны все из них.Вместо этого работайте с подвыборкой.

...