Question

У меня есть веб-сайт, на котором пользователи загружают документы в формате .doc и .pdf. Я использую Sphinx для полнотекстового поиска в моей базе данных SQL (MySQL). Каков наилучший способ индексировать эти форматы файлов с помощью Sphinx?

mlissner · Answer 1 · 03 апреля 2011

Я использую для этого метод pdf2text и antiword. Я использую оба из них, чтобы сбросить содержимое PDF-файлов и документов Word в базу данных. Оттуда легко ползти со Сфинксом.

pat · Answer 2 · 31 июля 2009

К сожалению, Sphinx не может индексировать эти типы файлов напрямую. Вам нужно будет либо импортировать текстовое содержимое в базу данных, либо в формат XML, который Sphinx может понять .

Wadester · Answer 3 · 17 октября 2013

Кто-нибудь использовал Tika для индексации других типов документов, так же как и плагин SOLR? Apache Tika

Некоторые ссылки:

Индексирование документов Word и PDF с помощью Sphinx

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Индексирование документов Word и PDF с помощью Sphinx

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов