Начало работы над проектом по архивированию тысяч «PDF-отчетов». Изучение альтернатив для их поиска. Хотел бы, чтобы пользователи могли вводить поисковый термин и получать список отчетов, содержащих указанный поисковый запрос, по которым они могут щелкнуть и просмотреть в своем браузере. Достаточно просто.
Solr , кажется, самый популярный вариант, который я могу найти с поддержкой PDF ... но мы не знаем Java ... Итак, ищем примеры (или просто советы), как получить это работает с Rails / Sunspot . После краткого обзора это выглядит довольно сложным (требующим эзотерической комбинации Tika, Solr Cell, Sunspot & Solr. Хотя, возможно (читай: надеюсь), я ошибаюсь?!?).
Nutshell: мы бы хотели указать, какую поисковую систему мы используем, на папки, содержащие PDF-файлы, чтобы они проиндексировали их. Затем из приложения Rails мы можем представить диалоговое окно поиска и управлять запросами и результатами.
Варианты? Степень сложности? Совет? Советы?