Сколько Java нужно для эффективного использования Hadoop и Mahout? - PullRequest
5 голосов
/ 22 июля 2010

Я разработчик PHP .Давайте просто уберем это с дороги.Но Hadoop - и Mahout в частности - пробудили мой интерес.Я готов погрузиться в Java, чтобы использовать их.

Итак, от людей достаточно опыта, чтобы знать, сколько Java мне понадобится, чтобы иметь возможность эффективно их использовать? Из того, что я видел, программирование картографов / редукторов не занимает так много времени.Но с Mahout я не совсем уверен, что я смотрю, когда смотрю на документацию.

Кроме того, насколько трудно будет брать данные из моего PHP-приложения для обработки вЯва через Hadoop и Mahout? Не могу представить, что это будет так сложно, но я не достаточно опытен, чтобы сказать.

Ответы [ 4 ]

7 голосов
/ 22 июля 2010

Не должно быть так сложно получить данные из PHP в Java для анализа с использованием Mahout и Hadoop.

Еще проще обрабатывать с использованием Mahout и Hadoop в автономном режиме в пакетном режиме и сохранятьпродукты данных в файловой системе или базе данных.Затем PHP может читать эти продукты данных так же легко, как выпадать из журнала.

Для использования в режиме реального времени, часть рекомендаций Mahout поддерживает различные интерфейсы веб-сервисов, которые облегчают доступ из PHP.Попадание в Mahout для оценки модели потребовало бы немного больше программирования.

1 голос
/ 08 декабря 2010

Я просто делал то же самое, и уже много лет я делал что-то связанное с Java.Я сделал следующее:

  1. Начал с простых примеров потоковой передачи Hadoop
  2. Попробуйте свой собственный анализ с потоковой передачей PHP
  3. Начал экспериментировать с Pig
  4. Начните экспериментировать с использованием потоковой передачи PHP внутри Pig

Все без какой-либо Java!

1 голос
/ 19 августа 2010

Начинающего уровня Java достаточно.Вы всегда можете вырыть глубоко в случае необходимости.

0 голосов
/ 20 августа 2011

Для рекомендаций в реальном времени вы также можете создать экземпляр mahout в классе сервлетов java, а затем экспортировать его как войну для обслуживания на сервере Tomcat.

...