Извлечение текста из PDF-файлов - сложная задача, и почти всегда она требует особого внимания.
Я бы начал с инструментов командной строки, таких как pdftotext, и посмотрю, что они выплюнут. Проблема в том, что PDF-файлы могут хранить текст в любом порядке, могут использовать неуклюжие кодировки шрифтов и могут делать такие вещи, как использование лигатурных символов (соединенные «ff» и «ij», которые вы видите в правильном наборе текста), чтобы бросить вас.
pdftotext устанавливается в любой системе Linux ...