Question

Я использую функцию scipy.cluster.hierarchy.fclusterdata для кластеризации списка векторов (векторов с 384 компонентами).

Это хорошо работает, но когда я пытаюсь кластеризовать большие объемы данных, мне не хватает памяти исбой программы.

Как выполнить ту же задачу, не исчерпав памяти?

На моей машине установлено 32 ГБ ОЗУ, Windows 10 x64, python 3.6 (64-разрядная версия)

Gregor · Answer 1 · 17 октября 2019

Вы могли бы взглянуть на

DBSCAN (или другие алгоритмы на основе плотности) и, возможно, это связанное обсуждение: scikit-learn Использование памяти DBSCAN
SLINK , вариант иерархической кластеризации (набор linkage='single' in sklearn.cluster.AgglomerativeClustering)
MiniBatch K означает
или BIRCH.

Однако вам придется настроить конвейер для проверки различного количества кластеров. Трудно сказать, какой алгоритм подойдет вам лучше всего.

Anony-Mousse · Answer 2 · 16 октября 2019

Вам нужно будет выбрать другой алгоритм.

Для иерархической кластеризации требуется O (n²) памяти и алгоритма учебника O (n³) времени. Это не может хорошо масштабироваться до больших данных.

Как кластеризовать большие объемы данных с минимальным использованием памяти

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как кластеризовать большие объемы данных с минимальным использованием памяти

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы