Кластеризация KMeans для более чем 5 миллионов векторов - PullRequest
4 голосов
/ 04 августа 2010

Я столкнулся с реальной проблемой. Мне нужно сделать несколько кластеров Kmeans для 5 миллионов векторов, каждый из которых содержит около 32 столбцов. Я опробовал Mahout, который требует Linux, и я на Windows, я ограничен от использования ОС Linux и любого вида симулятора.

Кто-нибудь может предложить алгоритм кластеризации KMeans, который масштабируется до 5М векторов и может быстро сходиться?

Я протестировал несколько, но они не масштабируются. Это означает, что они медленные и требуют вечности.

Спасибо

1 Ответ

2 голосов
/ 23 августа 2010

ОК, поэтому, кто хочет кластеризацию для крупномасштабных наборов данных, единственный способ сделать это - использовать Mahout. Это требует платформы Linux. Поэтому мне пришлось использовать виртуальную коробку, установить на нее Ubuntu, а затем использовать Mahout. Это длинная процедура для установки Mahout, но две ссылки, которые я использовал, следующие:

http://www.michael -noll.com / вики / Running_Hadoop_On_Ubuntu_Linux_ (Single-Node_Cluster)

http://www.michael -noll.com / вики / Running_Hadoop_On_Ubuntu_Linux_ (Multi-Node_Cluster)

...