Hadoop MapReduce промежуточный вывод - PullRequest
6 голосов
/ 23 октября 2011

Есть ли способ вывода для регистрации промежуточного (Map Phase) вывода задания MapReduce без редактирования приложения? (Приложение не мое, но кластер есть, и я могу настроить кластер Hadoop так, как я хочу)

Ответы [ 2 ]

8 голосов
/ 24 октября 2011
Параметр

keep.task.files.pattern может использоваться для хранения промежуточных файлов. Промежуточные файлы должны быть очищены вручную после завершения задания. Поскольку это свойство задачи сопоставления / уменьшения, оно должно быть установлено в файле конфигурации и файл jar снова упакован.

0 голосов
/ 15 июня 2018

Я не думаю, что инфраструктура MR предоставляет какую-либо конфигурацию для сохранения промежуточных выходных файлов карты.Даже если такой флаг существует, он не очень полезен, потому что:

Промежуточный вывод, созданный Картами, не может быть легко прочитан / использован как:1) Вывод значения ключа сериализуется перед записью в промежуточные файлы.2) Метаданные, относящиеся к парам ключ-значение (длина ключа, длина значения, номер раздела), также записываются в эти файлы (эти метаданные представлены в двоичном формате)

Пример расположения этих промежуточных файлов:a) Промежуточный промежуточный файл (вывод разлива): /yarn/nm/usercache/root/appcache/application_1525687099554_0008/attempt_1525687099554_0008_m_000000_0_spill_0.outб) Конечный промежуточный файл (выход слияния): /yarn/nm/usercache/root/appcache/application_1525687099554_0008/output/attempt_1525687099554_0008_m_000001_0/file.out

...