У меня сейчас есть задача, где мне нужно объединить несколько заданий в Hadoop.
То, что я сейчас дон, это то, что у меня есть 2 работы. Моя первая работа имеет функцию карты, объединитель и редуктор. Ну, мне нужна еще одна фаза сокращения, поэтому я создал второе задание с простой задачей карты, которая передает выходные данные предыдущего редуктора в конечный редуктор.
Я считаю, что это немного "глупо", потому что должен быть способ просто зацепить это. Более того, я думаю, что количество операций ввода-вывода уменьшится таким образом.
Я использую версию 0.20.203 и нахожу только устаревшие примеры ChainMapper и ChainReducer, использующие JobConf.
Я нашел это:
http://hadoop.apache.org/mapreduce/docs/current/api/org/apache/hadoop/mapreduce/lib/chain/ChainMapper.html
http://hadoop.apache.org/mapreduce/docs/current/api/org/apache/hadoop/mapreduce/lib/chain/ChainReducer.html
кажется, что он работает с классом Job, а не с JobConf, который устарел в 203, но в 203. нет ни одного пакета, содержащего эти классы.