Запись в один файл из картографов - PullRequest
2 голосов
/ 15 марта 2012

Я работаю над mapreduce, который генерирует файл CSV из некоторых данных, которые считываются из HBase. Есть ли способ записать в один файл из картографов без фазы сокращения (или объединить несколько файлов, созданных картографами в конце работы)? Я знаю, что могу установить выходной формат для записи в файл на уровне задания, возможно ли сделать подобное для картографов?

Спасибо

Ответы [ 2 ]

0 голосов
/ 16 марта 2012

Возможно (и нередко) иметь Map / Reduce-Job без фазы сокращения ( пример ).Для этого вы просто используете job.setNumReduceTasks(0).

Однако я не уверен, как обрабатываются задания в этом случае.Обычно вы получаете один файл результатов на редуктор.Без редукторов я мог бы представить, что вы либо получаете один файл на маппер, либо что вы не можете произвести вывод задания.Вам нужно будет попробовать / исследовать это.

Если вышеприведенное не работает для вас, вы все равно можете использовать реализацию Reducer по умолчанию, которая просто перенаправляет вывод картографа (функция идентификации).

0 голосов
/ 16 марта 2012

Серьезно, это не то, как MapReduce работает.

Зачем вам вообще для этого нужна работа? Напишите простое Java-приложение, которое сделает то же самое для вас. Есть также утилиты командной строки, которые делают то же самое для вас.

...