Индексирование базы данных для полнотекстового поиска с помощью Lucene / iFiler / SQL FTS / .. и т. Д. - PullRequest
1 голос
/ 03 января 2011

Я уже спросил о лучших алгоритмах / методах для полнотекстового поиска, и теперь я хочу решить, какой использовать. За последние несколько дней я внимательно прочитал эту тему, но, не имея никакого опыта, мне все еще нужна помощь в поиске лучших инструментов для моих нужд, что и является целью этого вопроса.

Очки для рассмотрения:
1. Я использую C # .Net 2010 вместе с SQL Server 2008 R2, т. Е. Мне нужен C # / sql-friendly метод
3- Индексируемые файлы: PDF, MS Office, TXT
3. Я также использую OCR для рендеринга полученных факсимильных документов в текстовые файлы, и теперь я думаю об использовании OCR для рендеринга текста из любого изображения, введенного в базу данных, и использую этот текст для предоставления индексной строки для изображений. .
4- Возможность предоставлять разные результаты поиска для разных форм одного и того же слова. то есть поиск «international» и «internationalization» должен давать разные результаты
5- Основные инструменты, которые меня интересуют:

  • Рендеринг текста с помощью iTextSharp и последующая подача его в Lucene для получения строки индекса (это лучший способ использовать Lucene?)
  • Использование Adobe iFilter, хотя Я не уверен, что этого достаточно для всех типов файлов в моей системе
  • Использование SQL FTS. Достаточно ли он силен для индексирования содержимого файлов и выполнения сложных операций поиска?
  • Любые другие предложения о других инструментах приветствуются, если они обеспечивают лучшую функциональность
Примеры, учебники и ссылки являются наиболее ценными :) заранее спасибо!

1 Ответ

0 голосов
/ 07 июня 2011

Я использовал Lucene для индексации PDF и других документов; это довольно здорово.

Индексирование документов PDF с помощью Lucene

Индекс Office файлы с Lucene

Lucene не поддерживает перенос слов (пункт 4), поэтому эти два слова будут давать разные результаты; проблема в том, что если вы хотите, чтобы эти два условия поиска возвращали одинаковые результаты.

...