Question

Чтобы предвосхитить это, я знаю, что есть обсуждения по этому поводу в разных местах. Половина того, что я прочитал, устарела, содержит ошибки или просто не связана с моей ситуацией.

Вот почему я привожу это сообществу, которое, я знаю, получит ответы.

Вопрос. У меня есть каталог (в идеале он-лайн), содержащий около 70 000 страниц в документах PDF (документы размером от 20 до 100 страниц, в сумме около 70 000 страниц).

Я ищу метод, сценарий или идею для самого простого способа поиска товаров в этих PDF-файлах. Все PDF-файлы имеют текстовый слой, созданный OCR в Acrobat.

Любые идеи , будь они продуманными или изобретательными, приветствуются.

Cfreak · Answer 1 · 05 августа 2010

XPDF имеет утилиту pdftotext, которая часто устанавливается в дистрибутивах Linux.Я хотел бы создать инструмент, который использует это для создания индекса слов в документе, в котором они появляются. Вы можете сохранить индекс в базе данных и затем выполнить поиск по этому.

Это займет немного больше местано было бы просто включить предложение контекста, чтобы показать в результатах поиска.

Mikos · Answer 2 · 05 августа 2010

Моя рекомендация: Apache Solr (поисковый сервер, построенный с использованием Lucene), и он очень прост в использовании, используя интерфейс RESTful. Он также имеет подпроект под названием Tika , который извлекает метаданные и структурированное текстовое содержимое из нескольких форматов (включая PDF).

Gordon · Answer 3 · 05 августа 2010

Используйте поисковую систему, такую как Lucene или Sphinx, чтобы индексировать и отмечать PDF-файлы. Zend Framework имеет как компонент для чтения и записи файлов PDF , так и реализацию Lucene .

Проектные мысли: поиск в каталоге PDF-файлов

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Проектные мысли: поиск в каталоге PDF-файлов

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов