Я пытаюсь запустить hadoop с потоковой передачей.У меня есть два файла.Одним из них является java-файл для mapper, а другим - сценарий python для редуктора.
MerkleMapper.java
Class MerkleMapper extends MapREduceBase
и определяет функцию map()
.Для каждой записи входного разбиения она считывает входящую пару key(byte_offset)
, value(line)
и выводит byte_offset
и хэш строки.
Reducer - это скрипт на python, который объединяет все хэши и производитверхний хеш.
Возможно ли объединить два (java и python).Как я могу указать свой файл Java в качестве картографа с помощью потоковой передачи.