Mahout - это проект, управляемый сообществом, и его сообщество очень сильное.
"Apache Mahout - одна из первых и наиболее известных платформ машинного обучения для больших данных. Он реализует алгоритмы машинного обучения на вершинераспределенных платформ обработки, таких как Hadoop и Spark. "
-Tiwary, C. (2015). Изучение Apache Mahout .
Apache Spark - это универсальная вычислительная система с открытым исходным кодом в оперативной памяти, которая работает как в Windows, так и в Unix-подобных системах.Вместо дисковых вычислений, подобных Hadoop, Spark использует кластерную память для загрузки всех данных в память, и эти данные можно запрашивать многократно.
«Поскольку Spark набирает популярность среди ученых-данных,сообщество Mahout также быстро работает над тем, чтобы алгоритмы Mahout работали на исполнительном движке Spark, чтобы ускорить его вычисления в 10-100 раз. Mahout предоставляет несколько важных строительных блоков для создания рекомендаций с использованием Spark. "
-Гупта А. (2015). Изучение классификации Apache Mahout .
(Эта последняя книга также содержит пошаговое руководство Использование оболочки Spout Mahout (они не используютWindows, и неясно, используют ли они Hadoop или нет. Для получения дополнительной информации по этой теме см. Раздел реализации в https://mahout.apache.org/users/sparkbindings/play-with-shell.html.)
. В дополнение к этому вы можете создавать механизмы рекомендаций, используя Spark, такие какв качестве DataFrames, RDD, конвейеров и преобразований, доступных в Spark MLlib и
в Spark, (...) чередующиеся наименьшие квадраты ( ALS )метод используется для создания основанной на модели совместной фильтрации.
-Gorakala, S. (2016). Рекомендации по сборке двигателей .
На данный момент есть еще один вопрос, на который нужно ответить, прежде чем ответить на ваш вопрос: можем ли мы запустить Spark без Hadoop? .
Итак, да , можно использоватьМетод ALS в Windows с использованием Spark (без Hadoop).