Пока у вас получится два выходных каталога, один для авторов и один для статей.
Теперь вы хотите выполнить операцию JOIN (как в случае с языками БД) с обоими файлами.Для этого способ MapReduce состоит в том, чтобы выполнить третью работу, выполняя эту операцию с двумя выходными файлами.
Операции JOIN в Hadoop хорошо изучены.Один из способов сделать это - шаблон соединения на стороне редуктора.Шаблон состоит в том, что преобразователь создает составной ключ из двух подразделов (один исходный ключ + логический ключ, определяющий, является ли таблица 0 или 1).
Перед тем, как перейти к редуктору, необходимо создать разделитель, который разделяетэти составные ключи.Редукторы просто получат одинаковые ключи из каждой таблицы.
Дайте мне знать, если вам нужны дополнительные разъяснения, я написал этот довольно быстро.