Индексирование документов Word и PDF с помощью Sphinx - PullRequest
10 голосов
/ 30 июля 2009

У меня есть веб-сайт, на котором пользователи загружают документы в формате .doc и .pdf. Я использую Sphinx для полнотекстового поиска в моей базе данных SQL (MySQL). Каков наилучший способ индексировать эти форматы файлов с помощью Sphinx?

Ответы [ 3 ]

9 голосов
/ 03 апреля 2011

Я использую для этого метод pdf2text и antiword. Я использую оба из них, чтобы сбросить содержимое PDF-файлов и документов Word в базу данных. Оттуда легко ползти со Сфинксом.

6 голосов
/ 31 июля 2009

К сожалению, Sphinx не может индексировать эти типы файлов напрямую. Вам нужно будет либо импортировать текстовое содержимое в базу данных, либо в формат XML, который Sphinx может понять .

1 голос
/ 17 октября 2013

Кто-нибудь использовал Tika для индексации других типов документов, так же как и плагин SOLR? Apache Tika

Некоторые ссылки:

  1. PDF2TEXT в poppler или poppler-utils в Linux
  2. ANTIWORD - похоже, для старого .doc, а не для нового .docx
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...