Я решил заглянуть в lucene.net, потому что меня не устраивали расчеты релевантности в полнотекстовой индексации сервера SQL.
Мне удалось выяснить, как довольно быстро проиндексировать весь контент, а затем с помощью Люка найти шумовые слова. Я теперь отредактировал файлы шума сервера sql на основе этого анализа. Теперь у меня есть поисковое решение, которое работает достаточно хорошо с использованием полнотекстовой индексации SQL Server, но в будущем я планирую перейти на lucene.net.
Используя полнотекстовую индексацию сервера SQL в качестве основы, я разработал доменно-ориентированный подход к поиску соответствующего контента с помощью понятного мне инструмента. После некоторых серьезных размышлений и проверок я использовал множество других мер для определения релевантности результатов поиска, отличных от того, что обеспечивается анализом текстового контента на предмет частоты и расстояния между словами. Полнотекстовая индексация SQL Server дала мне хорошее начало, и теперь у меня есть стратегия, которую я могу выразить с помощью lucene, которая будет работать очень хорошо.
Мне потребовалось бы намного больше времени, чтобы понять люцен и разработать стратегию поиска. Если кто-то все еще читает это, используйте полнотекстовое индексирование для проверки своей идеи, а затем перейдите к lucene, как только у вас появится стратегия, которая, как вы знаете, будет работать для вашего домена.