Я использовал SDK QuickPDF от www.quickpdf.com для недавнего проекта.
У них есть функция ExtractFilePageText (), которая может возвращать текст, шрифт, координаты ограничивающего прямоугольника.
Опции извлечения включают: -
0 = Извлечение текста в удобочитаемом формате 2 = Возвращать строку CSV, включая шрифт, цвет, размер и положение каждого фрагмента текста на странице. Использование более точного текстаалгоритм извлечения: 3 = возвращать строку CSV для каждого фрагмента текста на странице в следующем формате: имя шрифта, цвет текста, размер текста, X1, Y1, X2, Y2, X3, Y3, X4, Y4, Text Co-ординаты - это четыре точки, ограничивающие текст, измеряемые в точках (1/72 дюйма) с нижним левым углом страницы в качестве источника 4 = аналогично варианту 3, но отдельные слова возвращаются, что облегчает поиск слов.
Требуется лицензия разработчика, но лицензионные отчисления не требуются.Он имеет много других полезных функций и работает со многими языками.Документация также довольно хороша.