Существует pdftotext
(часть xpdf ). Он будет извлекать текст из файлов PDF (если он хранится в виде текста в PDF, а не в виде изображения). Возможно, вы могли бы использовать это.
Однако имейте в виду, что любое решение для извлечения текста из PDF будет ограничено, поскольку PDF-файлы действительно предназначены только для отображения. По крайней мере, у вас не будет метаданных, таких как дата статьи, автор и т. Д .; также, если часть текста находится в изображении, вы можете потерять это.
Лучшим подходом, вероятно, является извлечение необработанных данных из системы, которая генерирует PDF-файлы, и их архивирование в подходящем формате. Может быть, больше работы, но лучшие результаты.