Обслуживание PDF-файлов с возможностью поиска с помощью Rails - PullRequest
2 голосов
/ 18 октября 2011

Начало работы над проектом по архивированию тысяч «PDF-отчетов». Изучение альтернатив для их поиска. Хотел бы, чтобы пользователи могли вводить поисковый термин и получать список отчетов, содержащих указанный поисковый запрос, по которым они могут щелкнуть и просмотреть в своем браузере. Достаточно просто.

Solr , кажется, самый популярный вариант, который я могу найти с поддержкой PDF ... но мы не знаем Java ... Итак, ищем примеры (или просто советы), как получить это работает с Rails / Sunspot . После краткого обзора это выглядит довольно сложным (требующим эзотерической комбинации Tika, Solr Cell, Sunspot & Solr. Хотя, возможно (читай: надеюсь), я ошибаюсь?!?).

Nutshell: мы бы хотели указать, какую поисковую систему мы используем, на папки, содержащие PDF-файлы, чтобы они проиндексировали их. Затем из приложения Rails мы можем представить диалоговое окно поиска и управлять запросами и результатами.

Варианты? Степень сложности? Совет? Советы?

Ответы [ 2 ]

1 голос
/ 18 октября 2011

Вот сообщение в блоге: Как индексировать содержимое файла, например, pdf, doc и т. Д. С помощью Solr, Sunspot, Paperclip, S3 и Rails 3 , в котором приведены некоторые довольно подробные инструкции по настройке всего этого .

0 голосов
/ 18 октября 2011

Lucid Imagination, похоже, рассмотрел эту тему в хорошем учебнике: http://www.lucidimagination.com/blog/2009/02/17/acts_as_solr_cell/

...