Ответ Мэтта b определенно хорош для больших и маленьких объединений, но давайте предположим, что вы делаете соединение от большого к большому.
Вы можете отобразить Words_I_Want.txt:
k: слово, v: какой-то маркер
Затем вы можете отобразить Text.txt:
k: слово, v: 1 (аналогично стандартному количеству слов)
Вам нужно будет использовать MultipleInputs и выяснить, какой файл является каким, используя conf.get ("map.input.file").
Тогда на шаге уменьшения вы можете собирать выходные данные только тогда, когда у ключа есть маркер.