Я работаю над проектом, который собирается извлечь указанный текст из PDF-документа. У меня нет опыта с этим типом добычи. Одна проблема заключается в том, что мы не просто хотим получить дамп всего текста в документе. Скорее, есть ли способ извлечь только определенные поля в PDF? Есть ли понятие шаблонов PDF, которые можно использовать для чего-то подобного?
Я пытаюсь использовать Apple Automator - он может получить весь текст, но не указанный текст. В идеале я хотел бы, чтобы кто-то в Pages имел, например, 30 отдельных строк текста и чтобы 20 из этих строк были указаны как «элемент каталога», а наш скрипт Automator занимал ТОЛЬКО эти двадцать строк.
Есть какие-нибудь идеи о лучших инструментах рабочего процесса / извлечения для этого? Я бы предпочел, чтобы в качестве языка сценариев использовались только элементы уровня потребителя, такие как Apple Pages, Automator и ruby или python.
thx
edit # 1
Похоже, что помеченные PDF могут быть одним из способов сделать это - не уверен, насколько хорошо поддерживается на страницах Apple, это