Простой PDF действительно не является языком разметки. Текст рисуется в определенных местах. Существует нечто, называемое Tagged PDF , и если ваши документы помечены, ваша работа может быть проще.
Я был бы склонен запускать документы через PDF для преобразования текста и извлекать первый фрагмент текста из этого, если текст сохранен как текст в вашем PDF, а не изображения.