Я уже спросил о лучших алгоритмах / методах для полнотекстового поиска, и теперь я хочу решить, какой использовать. За последние несколько дней я внимательно прочитал эту тему, но, не имея никакого опыта, мне все еще нужна помощь в поиске лучших инструментов для моих нужд, что и является целью этого вопроса.
Очки для рассмотрения:
1. Я использую C # .Net 2010 вместе с SQL Server 2008 R2, т. Е. Мне нужен C # / sql-friendly метод
3- Индексируемые файлы: PDF, MS Office, TXT
3. Я также использую OCR для рендеринга полученных факсимильных документов в текстовые файлы, и теперь я думаю об использовании OCR для рендеринга текста из любого изображения, введенного в базу данных, и использую этот текст для предоставления индексной строки для изображений. .
4- Возможность предоставлять разные результаты поиска для разных форм одного и того же слова. то есть поиск «international» и «internationalization» должен давать разные результаты
5- Основные инструменты, которые меня интересуют:
- Рендеринг текста с помощью iTextSharp и последующая подача его в Lucene для получения строки индекса (это лучший способ использовать Lucene?)
- Использование Adobe iFilter, хотя Я не уверен, что этого достаточно для всех типов файлов в моей системе
- Использование SQL FTS. Достаточно ли он силен для индексирования содержимого файлов и выполнения сложных операций поиска?
- Любые другие предложения о других инструментах приветствуются, если они обеспечивают лучшую функциональность
Примеры, учебники и ссылки являются наиболее ценными :) заранее спасибо!