Есть ли в MapR масштабируемые алгоритмы машинного обучения.Нравится Махоут? - PullRequest
0 голосов
/ 16 января 2012

Мне особенно интересно, имеет ли MapR кластеризацию Kmeans точно так же, как Mahout?

1 Ответ

5 голосов
/ 16 января 2012

Насколько я знаю, MapR - только "более быстрый" Hadoop. Нет включенных алгоритмов.

Так что ваша работа должна быть совместимой.

Но в чем же заключается реализация вашего собственного? К-значит ультра просто. Смотрите мой блог: http://codingwiththomas.blogspot.com/2011/05/k-means-clustering-with-mapreduce.html

Однако я реализовал кластеризацию k-средних с BSP (Bulk Synchronous Parallel) и Apache Hama, которая почти в десять раз быстрее, если сравнивать ее с результатами теста Mahout в этой книге: http://www.manning.com/ingersoll/ (связанный jira : https://issues.apache.org/jira/browse/MAHOUT-588) Вот эталон k-средних с Apache Hama: http://wiki.apache.org/hama/Benchmarks

Вы можете найти его здесь: https://github.com/thomasjungblut/thomasjungblut-common/blob/master/src/de/jungblut/clustering/KMeansBSP.java

...