Как кластеризовать большие объемы данных с минимальным использованием памяти - PullRequest
0 голосов
/ 15 октября 2019

Я использую функцию scipy.cluster.hierarchy.fclusterdata для кластеризации списка векторов (векторов с 384 компонентами).

Это хорошо работает, но когда я пытаюсь кластеризовать большие объемы данных, мне не хватает памяти исбой программы.

Как выполнить ту же задачу, не исчерпав памяти?

На моей машине установлено 32 ГБ ОЗУ, Windows 10 x64, python 3.6 (64-разрядная версия)

Ответы [ 2 ]

0 голосов
/ 17 октября 2019

Вы могли бы взглянуть на

Однако вам придется настроить конвейер для проверки различного количества кластеров. Трудно сказать, какой алгоритм подойдет вам лучше всего.

0 голосов
/ 16 октября 2019

Вам нужно будет выбрать другой алгоритм.

Для иерархической кластеризации требуется O (n²) памяти и алгоритма учебника O (n³) времени. Это не может хорошо масштабироваться до больших данных.

...