Может ли apache mahout ALS работать без hadoop? - PullRequest
0 голосов
/ 23 октября 2018

Я пытался использовать ParallelALSFactorizationJob, но он вылетает здесь:

Exception in thread "main" java.lang.NullPointerException at java.lang.ProcessBuilder.start(ProcessBuilder.java:1012) at org.apache.hadoop.util.Shell.runCommand(Shell.java:445) at org.apache.hadoop.util.Shell.run(Shell.java:418) at org.apache.hadoop.util.Shell$ShellCommandExecutor.execute(Shell.java:650) at org.apache.hadoop.util.Shell.execCommand(Shell.java:739)

В справке командной строки упоминается использование файловой системы, но, похоже, она нуждается в hadoop.Как я могу запустить его в Windows, файл mahout.cmd не работает:

"===============DEPRECATION WARNING===============" "This script is no longer supported for new drivers as of Mahout 0.10.0" "Mahout's bash script is supported and if someone wants to contribute a fix for this" "it would be appreciated."

Так возможно ли это (ALS + Windows - hadoop)?

1 Ответ

0 голосов
/ 02 ноября 2018

Mahout - это проект, управляемый сообществом, и его сообщество очень сильное.

"Apache Mahout - одна из первых и наиболее известных платформ машинного обучения для больших данных. Он реализует алгоритмы машинного обучения на вершинераспределенных платформ обработки, таких как Hadoop и Spark. "

-Tiwary, C. (2015). Изучение Apache Mahout .

Apache Spark - это универсальная вычислительная система с открытым исходным кодом в оперативной памяти, которая работает как в Windows, так и в Unix-подобных системах.Вместо дисковых вычислений, подобных Hadoop, Spark использует кластерную память для загрузки всех данных в память, и эти данные можно запрашивать многократно.

«Поскольку Spark набирает популярность среди ученых-данных,сообщество Mahout также быстро работает над тем, чтобы алгоритмы Mahout работали на исполнительном движке Spark, чтобы ускорить его вычисления в 10-100 раз. Mahout предоставляет несколько важных строительных блоков для создания рекомендаций с использованием Spark. "

-Гупта А. (2015). Изучение классификации Apache Mahout .

(Эта последняя книга также содержит пошаговое руководство Использование оболочки Spout Mahout (они не используютWindows, и неясно, используют ли они Hadoop или нет. Для получения дополнительной информации по этой теме см. Раздел реализации в https://mahout.apache.org/users/sparkbindings/play-with-shell.html.)

. В дополнение к этому вы можете создавать механизмы рекомендаций, используя Spark, такие какв качестве DataFrames, RDD, конвейеров и преобразований, доступных в Spark MLlib и

в Spark, (...) чередующиеся наименьшие квадраты ( ALS )метод используется для создания основанной на модели совместной фильтрации.

-Gorakala, S. (2016). Рекомендации по сборке двигателей .

На данный момент есть еще один вопрос, на который нужно ответить, прежде чем ответить на ваш вопрос: можем ли мы запустить Spark без Hadoop? .

Итак, да , можно использоватьМетод ALS в Windows с использованием Spark (без Hadoop).

...