проект извлечения текста - лучший инструмент для извлечения только определенных строк / элементов из PDF? - PullRequest
2 голосов
/ 25 марта 2012

Я работаю над проектом, который собирается извлечь указанный текст из PDF-документа. У меня нет опыта с этим типом добычи. Одна проблема заключается в том, что мы не просто хотим получить дамп всего текста в документе. Скорее, есть ли способ извлечь только определенные поля в PDF? Есть ли понятие шаблонов PDF, которые можно использовать для чего-то подобного?

Я пытаюсь использовать Apple Automator - он может получить весь текст, но не указанный текст. В идеале я хотел бы, чтобы кто-то в Pages имел, например, 30 отдельных строк текста и чтобы 20 из этих строк были указаны как «элемент каталога», а наш скрипт Automator занимал ТОЛЬКО эти двадцать строк.

Есть какие-нибудь идеи о лучших инструментах рабочего процесса / извлечения для этого? Я бы предпочел, чтобы в качестве языка сценариев использовались только элементы уровня потребителя, такие как Apple Pages, Automator и ruby ​​или python.

thx

edit # 1 Похоже, что помеченные PDF могут быть одним из способов сделать это - не уверен, насколько хорошо поддерживается на страницах Apple, это

Ответы [ 3 ]

1 голос
/ 26 марта 2012

С питоном лучшим выбором, вероятно, будет PDFMiner . Он может извлекать координаты для каждой текстовой строки, поэтому вы можете самостоятельно обрабатывать прямоугольники в вашей форме и выбирать, что в них попадает. Это все довольно низкий уровень, но, к сожалению, формат PDF довольно низкоуровневый.

Имейте в виду, что, если вы уже не знаете много о структуре PDF, вы найдете API и документацию довольно скудными. Посмотрите вокруг примеры использования, в том числе здесь, на SO.

0 голосов
/ 25 марта 2012

Для Ruby вы можете попробовать pdf-reader для анализа PDF и доступа к метаданным и контенту. Извлечение определенных элементов, которые вас интересуют, - это другая история, но то, как это сделать, во многом зависит от того, какой формат данных вы ожидаете.

0 голосов
/ 25 марта 2012

Вы можете использовать Origami в Ruby , платформу, предназначенную для анализа, анализа и подделки PDF-документов, или Python эквивалент: Origapy, простой интерфейс Python для Origami на основе Ruby.

...