Поиск в PDF, индексировать это? - PullRequest
2 голосов
/ 10 марта 2011

У меня есть 1000+ PDF для поиска.

Мне нужен плагин или приложение для индексации, например (http) joomla.natemaxfield.com

Ответы [ 2 ]

2 голосов
/ 10 марта 2011

Мы используем Swish-e для индексации нашего веб-сайта, который включает в себя тысячи PDF-файлов, файлов Word и даже файлов WordPerfect.Работает отлично.Он бесплатный, с открытым исходным кодом и хорошо интегрируется с PHP.

http://swish -e.org / index.html

С домашней страницы:

Swish-e - это быстрая, гибкая и бесплатная система с открытым исходным кодом для индексации коллекций веб-страниц или других файлов.Swish-e идеально подходит для коллекций миллионов документов или меньше.Используя синтаксический анализатор GNOME ™ libxml2 и набор фильтров, Swish-e может индексировать обычный текст, электронную почту, PDF, HTML, XML, Microsoft® Word / PowerPoint / Excel и практически любой файл, который можно преобразовать в XML или HTML.текст.Swish-e также часто используется для дополнения баз данных, таких как СУБД MySQL®, для очень быстрого полнотекстового поиска.

1 голос
/ 10 марта 2011

Взгляните на PDFMiner . Он может делать то, что вы хотите, довольно легко. Также, пожалуйста, ищите похожие вопросы, так как это возможно: Модуль Python для преобразования PDF в текст

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...