Использование Java класса в качестве Mapper и Python Script в качестве редуктора - PullRequest
1 голос
/ 11 февраля 2012

Я пытаюсь запустить hadoop с потоковой передачей.У меня есть два файла.Одним из них является java-файл для mapper, а другим - сценарий python для редуктора.

MerkleMapper.java

Class MerkleMapper extends MapREduceBase и определяет функцию map().Для каждой записи входного разбиения она считывает входящую пару key(byte_offset), value(line) и выводит byte_offset и хэш строки.

Reducer - это скрипт на python, который объединяет все хэши и производитверхний хеш.

Возможно ли объединить два (java и python).Как я могу указать свой файл Java в качестве картографа с помощью потоковой передачи.

1 Ответ

0 голосов
/ 16 февраля 2012

Вы можете разбить его на 2 задания.

В первом задании есть только маппер (ваш маппер Java), и вы берете его и передаете в потоковое задание Python, где ваш маппер - это личность, а редуктор - редуктор питона. В настоящее время вы не можете объединить потоковое и Java из того, что я знаю.

...