Как использовать Mahout в среде Windows? - PullRequest
5 голосов
/ 29 апреля 2010

Я пытаюсь использовать Mahout в приложении, работающем под Windows. Я хочу построить кластеры из индекса lucene, используя k-means.

Как только мне нужно создать файлы последовательности (создание векторов из индекса lucene), я получаю исключение Hadoop, поскольку Hadoop делает вызовы командной строки для программ, неизвестных в среде Windows (например, chmod). Запуск в Cygwin не вариант, так как я хочу иметь возможность запускать приложение из затмения.

Так что мой вопрос

есть ли способ избежать необходимости создавать файлы последовательности для извлечения моих векторов из индекса lucene? или есть способ создать файлы последовательности в среде Windows?

Ответы [ 3 ]

4 голосов
/ 30 апреля 2010

Единственный способ запустить Hadoop в среде Windows - это установить Cygwin. Для получения дополнительной информации см. Этот пост в блоге:

http://hayesdavis.net/2008/06/14/running-hadoop-on-windows/

Cygwin предоставит все утилиты командной строки (например, chmod), на которые опирается Hadoop. Вы по-прежнему можете запускать задания Hadoop из Eclipse, если хотите.

1 голос
/ 03 мая 2010

Знаете ли вы API SequenceFile? Посмотрите здесь: http://hadoop.apache.org/common/docs/current/api/org/apache/hadoop/io/SequenceFile.html Вы можете попробовать записать / прочитать данные самостоятельно.

Я думаю, вы можете запустить Mahout из затмения в Windowns в автономном режиме. Но у вас появятся несколько недостатков и препятствий. Вы должны попробовать, как далеко вы зашли.

По моему мнению, вы не должны настаивать на запуске mahout из затмения. ; -)

0 голосов
/ 29 марта 2014

Вы можете использовать виртуальную машину для запуска среды Hadoop.На мой взгляд, лучшим решением является использование проекта http://hortonworks.com/.Все работает красиво.

...