(я думаю, что это тот же вопрос, который вы только что задали на user@mahout.apache.org? Копирование моего ответа.)
Вам может вообще не понадобиться Hadoop, и если вы этого не сделаете, я бы посоветовал вам не использовать его для простоты. Это «необходимое зло», чтобы преодолеть определенную точку.
У вас могут быть данные о Кассандре, но вы захотите прочитать их в память. Если вы можете сделать дамп как файл, вы можете использовать FileDataModel. Или вы можете эмулировать код в FileDataModel для создания кода на основе Cassandra.
Тогда ваши две потребности легко будут удовлетворены:
Это даже не рекомендация
проблема. Просто выберите реализацию
пользовательского сходства, и использовать его для
сравнить пользователя со всеми остальными, и
выбрать те, которые с наибольшим
сходство. (Упаковка с
CachingUserSimility поможет
много.)
Это просто рекомендация
проблема. Использовать
GenericUserBasedRecommender с
ваше UserShoity и DataModel
и все готово.
Конечно, это может быть гораздо сложнее, но это хорошая отправная точка.
Если позже вы используете Hadoop, то да, вы должны настроить Hadoop в соответствии с его инструкциями. Здесь нет "настройки" Mahout. Для рекомендаций вы можете обратиться к одному из классов RecommenderJob, который вызывает необходимые задания в вашем кластере Hadoop. Вы бы запустили его с помощью команды hadoop - опять же, именно здесь вам нужно просто понять Hadoop.
Книга Mahout в действии подробно описывает большинство заданий Mahout Hadoop.