Hadoop: цепочка заданий в 0.20.203 - PullRequest
1 голос
/ 01 марта 2012

У меня сейчас есть задача, где мне нужно объединить несколько заданий в Hadoop. То, что я сейчас дон, это то, что у меня есть 2 работы. Моя первая работа имеет функцию карты, объединитель и редуктор. Ну, мне нужна еще одна фаза сокращения, поэтому я создал второе задание с простой задачей карты, которая передает выходные данные предыдущего редуктора в конечный редуктор. Я считаю, что это немного "глупо", потому что должен быть способ просто зацепить это. Более того, я думаю, что количество операций ввода-вывода уменьшится таким образом.

Я использую версию 0.20.203 и нахожу только устаревшие примеры ChainMapper и ChainReducer, использующие JobConf. Я нашел это: http://hadoop.apache.org/mapreduce/docs/current/api/org/apache/hadoop/mapreduce/lib/chain/ChainMapper.html http://hadoop.apache.org/mapreduce/docs/current/api/org/apache/hadoop/mapreduce/lib/chain/ChainReducer.html кажется, что он работает с классом Job, а не с JobConf, который устарел в 203, но в 203. нет ни одного пакета, содержащего эти классы.

1 Ответ

0 голосов
/ 01 марта 2012

Вы можете использовать oozie .Создание рабочего процесса было бы намного проще.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...