Мне особенно интересно, имеет ли MapR кластеризацию Kmeans точно так же, как Mahout?
Насколько я знаю, MapR - только "более быстрый" Hadoop. Нет включенных алгоритмов.
Так что ваша работа должна быть совместимой.
Но в чем же заключается реализация вашего собственного? К-значит ультра просто. Смотрите мой блог: http://codingwiththomas.blogspot.com/2011/05/k-means-clustering-with-mapreduce.html
Однако я реализовал кластеризацию k-средних с BSP (Bulk Synchronous Parallel) и Apache Hama, которая почти в десять раз быстрее, если сравнивать ее с результатами теста Mahout в этой книге: http://www.manning.com/ingersoll/ (связанный jira : https://issues.apache.org/jira/browse/MAHOUT-588) Вот эталон k-средних с Apache Hama: http://wiki.apache.org/hama/Benchmarks
Вы можете найти его здесь: https://github.com/thomasjungblut/thomasjungblut-common/blob/master/src/de/jungblut/clustering/KMeansBSP.java