Что такое хорошая технология поиска для индексирования документов и текста - PullRequest
2 голосов
/ 01 декабря 2009

Какие инструменты доступны на рынке для индексирования документов и текста?

В идеале они должны попасть в эти категории .....

  • Уметь работать в среде среднего доверия
  • Быть открытым исходным кодом
  • Уметь анализировать и вырезать текст из документов (pdf / office docs / docx)
  • Уметь создавать фрагменты и выделять из поисковых запросов
  • Уметь искать нечеткие фразы и т. Д.

Любая полезная информация также будет полезна.

Спасибо

Ответы [ 2 ]

3 голосов
/ 01 декабря 2009

Я не уверен, что он работает в рамках среднего доверия и соответствует всем вашим требованиям, но посмотрите на Lucene.Net

2 голосов
/ 01 декабря 2009

Это не открытый исходный код, но вы можете посмотреть на Zoom Website Search Tool

...