Проектные мысли: поиск в каталоге PDF-файлов - PullRequest
1 голос
/ 05 августа 2010

Чтобы предвосхитить это, я знаю, что есть обсуждения по этому поводу в разных местах. Половина того, что я прочитал, устарела, содержит ошибки или просто не связана с моей ситуацией.

Вот почему я привожу это сообществу, которое, я знаю, получит ответы.

Вопрос. У меня есть каталог (в идеале он-лайн), содержащий около 70 000 страниц в документах PDF (документы размером от 20 до 100 страниц, в сумме около 70 000 страниц).

Я ищу метод, сценарий или идею для самого простого способа поиска товаров в этих PDF-файлах. Все PDF-файлы имеют текстовый слой, созданный OCR в Acrobat.

Любые идеи , будь они продуманными или изобретательными, приветствуются.

Ответы [ 3 ]

2 голосов
/ 05 августа 2010

XPDF имеет утилиту pdftotext, которая часто устанавливается в дистрибутивах Linux.Я хотел бы создать инструмент, который использует это для создания индекса слов в документе, в котором они появляются. Вы можете сохранить индекс в базе данных и затем выполнить поиск по этому.

Это займет немного больше местано было бы просто включить предложение контекста, чтобы показать в результатах поиска.

2 голосов
/ 05 августа 2010

Моя рекомендация: Apache Solr (поисковый сервер, построенный с использованием Lucene), и он очень прост в использовании, используя интерфейс RESTful. Он также имеет подпроект под названием Tika , который извлекает метаданные и структурированное текстовое содержимое из нескольких форматов (включая PDF).

2 голосов
/ 05 августа 2010

Используйте поисковую систему, такую ​​как Lucene или Sphinx, чтобы индексировать и отмечать PDF-файлы. Zend Framework имеет как компонент для чтения и записи файлов PDF , так и реализацию Lucene .

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...