Мой первый пост в Stack Overflow, так что будьте нежны, пожалуйста! Я собираюсь начать новый проект Ruby on Rails (3.1) для клиента. Одним из их требований является наличие поисковой системы, которая будет индексировать примерно 2000 документов, представляющих собой смесь PDF, Word, Excel и HTML.
Я надеялся использовать либо мышление-сфинкс, либо Текстиль (самый популярный на https://www.ruby -toolbox.com / Categories / rails_search.html ), но насколько я понимаю:
Так что у меня осталось два варианта:
- Выберите другой инструмент поиска
- Попробуйте извлечь текстовые версии вложений в базу данных для чтения-сфинкса для чтения
Какой подход вы рекомендуете?
Если это другой поисковый инструмент, какой? Мои требования довольно просты, поэтому мне бы очень хотелось, чтобы их было очень легко настроить, и в них много документации, примеров и учебных пособий!
Если он извлекается, можете ли вы порекомендовать экстракторы для распространенных типов файлов, таких как PDF, Word, Excel и HTML?
Спасибо всем. Очень ценю вашу помощь.