кластеризация на очень большой разреженной матрице? - PullRequest
3 голосов
/ 05 июля 2010

Я пытаюсь выполнить некоторую (k-средних) кластеризацию на очень большой матрице.

Матрица составляет приблизительно 500000 строк x 4000 столбцов, но очень разреженная (только пара значений "1" на строку).Я хочу получить около 2000 кластеров.

У меня есть два вопроса: - Может ли кто-нибудь порекомендовать платформу с открытым исходным кодом или инструмент для этого (возможно, с использованием k-means, может быть, с чем-то лучшим)?- Как я могу наилучшим образом оценить время, которое потребуется алгоритму для завершения?Я попробовал weka один раз, но через пару дней прервал работу, потому что не мог сказать, сколько времени это займет.

Спасибо!

Ответы [ 3 ]

2 голосов
/ 27 августа 2010
1 голос
/ 17 июня 2013

Для вашего случая, я думаю, ваша проблема только в размере ввода.

Я бы предложил "cluto" как хороший инструмент для больших и редких наборов данных. Это написано на C. Я пробовал около 17 миллионов строк с около 400 столбцов. И это работает быстро.

Ссылка на библиотеку Cluto

0 голосов
/ 08 августа 2014

Вы можете попробовать пакет sparcl в R, он реализует разреженные k-средства и иерархическую кластеризацию Не так легко понять жесткие

...