Отрицательные векторы длины не допускаются в функции расстояния - PullRequest
0 голосов
/ 25 сентября 2018

У меня большой фрейм данных (375 000 строк и 5 столбцов), все переменные являются числовыми.Я хотел бы пространственно-временную кластеризацию этого фрейма данных, используя иерархическую кластеризацию в R. Однако, когда я пытаюсь вычислить матрицу расстояний, я получаю следующую ошибку: «Отрицательные векторы длины не допускаются в функции расстояния».Это из-за превышения максимальной памяти моего компьютера (16 ГБ ОЗУ)?или это из-за превышения максимальной длины любого вектора в R, который составляет 2 ^ 31 - 1 (около 2 миллиардов) элементов?Кстати, как рассчитать длину этой матрицы расстояний, которую я пытаюсь вычислить?это 375 000 ^ 2, что составляет почти 100 миллиардов?В любом случае, что я могу сделать относительно этой проблемы?Могу ли я как-то по-прежнему использовать иерархическую кластеризацию в этом случае?

Кластеризация с использованием kmeans работает отлично, но мой руководитель предпочитает иерархическую кластеризацию.

Любые советы / предложения будут с благодарностью приняты

PSСтроки представляют идентификаторы поездок транспортных средств, а столбцы представляют: долготу начальной точки, широту начальной точки, долготу конечной точки, широту конечной точки и время поездки в определенный день (все значения масштабируются для всех переменных).

1 Ответ

0 голосов
/ 26 сентября 2018

Да, 375000 ^ 2 превышает длину вектора.

Размер матрицы примерно равен строкам * столбцы * размер типа данных.

Вычисляет объем необходимой памяти,затем вернитесь к своему руководителю с таким результатом.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...