hadoop-streaming: автоматизировать постобработку после завершения задания? - PullRequest
0 голосов
/ 03 апреля 2012

Шаг 1. У меня есть потоковое задание Hadoop, которое основано на переменном времени на количество данных для обработки Шаг 2 - После того, как работа сделана, мне нужно импортировать весь этот дамп данных в mongodb и создать плоский CSV-файл из этого

Вопрос
Можно ли как-нибудь приклеить шаг 2 к шагу 1, используя потоковую передачу hadoop, и избегать выполнения шага 2 вручную?

1 Ответ

0 голосов
/ 03 апреля 2012

Я бы рекомендовал использовать что-то типа https://github.com/Yelp/mrjob или https://github.com/klbostee/dumbo. Специально для mrjob и вашей проблемы http://packages.python.org/mrjob/job.html#writing-multi-step-jobs

...