вы можете использовать JobControl
для настройки вашего рабочего процесса в mappereduce, кстати, чтение выходных данных job1 & job2 (используйте MultipleInputs
) также может решить вашу проблему.
Используйте различные методы обработки и записывайте данные в соответствии спуть к данным.
mapper
job1data == job1.path => разделить данные ключа записи [1], данные значения [0] + "tagjob1"
job2data == job2.path => разделить данные ключа записи [0], данные значения [0] + «tagjob2»
редуктор
каждый ключ имеет свои наборы значений.
положитьзначения в две группы списков по вашему «тегу»
записать ключ и каждый декартово произведение двух списков.
надежд