Коммерческие опции:
- TET (Text Extraction Toolkit) SDK от http://www.pdflib.com; Плагин Acrobat для тестирования механизма
- pdfToolbox SDK от http://www.callassoftware.com; для тестирования доступна интерактивная настольная версия
- , если вы готовы самостоятельно выполнить кодирование: Adobe PDF Library, SDK, доступно через Datalogics
Все они достаточно зрелые, TET очень специфичен для извлечения текста, pdfToolbox - это SDK общего назначения для анализа и обработки PDF-файлов (но имеет особую функцию для извлечения текста с координатами текста на странице) и Adobe PDF Библиотека - скорее инструмент разработки общего назначения (предлагает множество низкоуровневых функций, но должен быть написан код, который находит текст / слова / символы и извлекает координаты).
Отказ от ответственности: я работаю для программного обеспечения callas, мой взгляд на pdfToolbox может быть предвзятым.