Эффективный способ записи номеров страниц из поиска PDF - PullRequest
1 голос
/ 06 октября 2011

У меня есть список из ~ 1200 запросов (номеров деталей), которые указаны где-то внутри 100-страничного PDF. Практически все, что мне нужно сделать, это записать, на каких страницах появляется каждый запрос, в PDF. Я не могу придумать умный способ сделать это. Мне нужно 5-20 часов, чтобы выполнить этот поиск по поиску, так что если кто-то может дать мне хорошую идею до 5-часовой отметки, это было бы здорово!

1 Ответ

2 голосов
/ 06 октября 2011

Предполагается, что вы можете определить, что такое «запрос» в вашем контексте программно из простого текста (например, с помощью регулярных выражений):

Вы можете разбить свой PDF на разные файлы (1 файл на страницу), используя pdftk

http://www.pdflabs.com/tools/pdftk-the-pdf-toolkit/

Затем преобразуйте эти файлы в текст с помощью утилиты pdf-to-text, подобной этой:

http://www.fileguru.com/PDF-To-TXT-Converter/download

или этот

http://www.pdf2text.com/

И, наконец, напишите себе простой скрипт, используя ваш любимый язык программирования, чтобы определить, какой из этих файлов содержит «запрос» (как бы он ни выглядел).

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...