Мы используем Swish-e для индексации нашего веб-сайта, который включает в себя тысячи PDF-файлов, файлов Word и даже файлов WordPerfect.Работает отлично.Он бесплатный, с открытым исходным кодом и хорошо интегрируется с PHP.
http://swish -e.org / index.html
С домашней страницы:
Swish-e - это быстрая, гибкая и бесплатная система с открытым исходным кодом для индексации коллекций веб-страниц или других файлов.Swish-e идеально подходит для коллекций миллионов документов или меньше.Используя синтаксический анализатор GNOME ™ libxml2 и набор фильтров, Swish-e может индексировать обычный текст, электронную почту, PDF, HTML, XML, Microsoft® Word / PowerPoint / Excel и практически любой файл, который можно преобразовать в XML или HTML.текст.Swish-e также часто используется для дополнения баз данных, таких как СУБД MySQL®, для очень быстрого полнотекстового поиска.