Да, вы можете создать файл с именами файлов в HDFS и использовать его в качестве входных данных для задания карты / сокращения. Вам нужно будет создать собственный сплиттер, чтобы обслуживать несколько имен файлов для каждого картографа. По умолчанию ваш входной файл будет разделен на блоки, и, вероятно, весь список файлов будет передан одному преобразователю.
Другим решением будет определить Ваш вклад как не разделяемый. В этом случае каждый файл будет передан в маппер, и вы сможете создать свой собственный InputFormat, который будет использовать всякий раз, когда вам потребуется логика для обработки файла - например, вызвать внешний исполняемый файл. Если вы пойдете по этому пути, фреймворк Hadoop позаботится о локальности данных.