У меня есть веб-сайт, на котором пользователи загружают документы в формате .doc и .pdf. Я использую Sphinx для полнотекстового поиска в моей базе данных SQL (MySQL). Каков наилучший способ индексировать эти форматы файлов с помощью Sphinx?
Я использую для этого метод pdf2text и antiword. Я использую оба из них, чтобы сбросить содержимое PDF-файлов и документов Word в базу данных. Оттуда легко ползти со Сфинксом.
К сожалению, Sphinx не может индексировать эти типы файлов напрямую. Вам нужно будет либо импортировать текстовое содержимое в базу данных, либо в формат XML, который Sphinx может понять .
Кто-нибудь использовал Tika для индексации других типов документов, так же как и плагин SOLR? Apache Tika
Некоторые ссылки: