Как поместить документы Powerpoint и Excel в индекс полнотекстового поиска, такой как текстовый поиск Sphinx или PostgreSQL? - PullRequest
1 голос
/ 23 сентября 2011

У меня есть приложение Rails, которое принимает загрузку файлов произвольных деловых документов, таких как Word, Excel, Powerpoint и PDF.Мне нужно сделать все эти документы доступными для поиска, желательно с использованием полнотекстового поиска Sphinx или PostgreSQL.Каковы лучшие решения?

1 Ответ

0 голосов
/ 25 сентября 2011

Как отмечается в комментариях, этот вопрос довольно хорошо охвачен старым вопросом.

Короче говоря: вам нужно будет сохранить соответствующие извлеченные данные из этих файлов в базе данных для Sphinx,и, вероятно, для полнотекстового поиска PostgreSQL.Sphinx теперь может также понимать текстовые файлы (если столбец базы данных указывает на файл), но для этого все равно потребуется другой инструмент для извлечения данных из PDF, DOC, XLS и др.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...