Это зависит от ваших расколов. Я думаю (может быть неправильно), что вам понадобится каждый PDF в целом, чтобы разобрать его. Для этого есть библиотеки Java, и Google знает, где они находятся.
Учитывая это, вам нужно будет использовать подход, при котором у вас есть файл целиком, когда вы будете готовы его проанализировать. Предполагая, что вы захотите сделать это в маппере, вам понадобится ридер, который будет передавать целые файлы мапперу. Вы можете написать свой собственный читатель, чтобы сделать это, или, возможно, уже есть один. Вы могли бы создать ридер, который сканирует каталог PDF-файлов и передает имя каждого файла в качестве ключа в маппер, а содержимое - в качестве значения.