SQL Server 2005 запрос полнотекстового индекса, чтобы помочь найти шумовые слова в содержании - PullRequest
0 голосов
/ 22 марта 2010

Есть ли способ запроса полнотекстового индекса для определения дополнительных шумовых слов? Я хотел бы добавить несколько пользовательских шумовых слов и подумать, есть ли способ проанализировать индекс, чтобы помочь определить предложения.

Ответы [ 2 ]

0 голосов
/ 27 марта 2010

Я решил заглянуть в lucene.net, потому что меня не устраивали расчеты релевантности в полнотекстовой индексации сервера SQL.

Мне удалось выяснить, как довольно быстро проиндексировать весь контент, а затем с помощью Люка найти шумовые слова. Я теперь отредактировал файлы шума сервера sql на основе этого анализа. Теперь у меня есть поисковое решение, которое работает достаточно хорошо с использованием полнотекстовой индексации SQL Server, но в будущем я планирую перейти на lucene.net.

Используя полнотекстовую индексацию сервера SQL в качестве основы, я разработал доменно-ориентированный подход к поиску соответствующего контента с помощью понятного мне инструмента. После некоторых серьезных размышлений и проверок я использовал множество других мер для определения релевантности результатов поиска, отличных от того, что обеспечивается анализом текстового контента на предмет частоты и расстояния между словами. Полнотекстовая индексация SQL Server дала мне хорошее начало, и теперь у меня есть стратегия, которую я могу выразить с помощью lucene, которая будет работать очень хорошо.

Мне потребовалось бы намного больше времени, чтобы понять люцен и разработать стратегию поиска. Если кто-то все еще читает это, используйте полнотекстовое индексирование для проверки своей идеи, а затем перейдите к lucene, как только у вас появится стратегия, которая, как вы знаете, будет работать для вашего домена.

0 голосов
/ 22 марта 2010

Так же просто, как в

http://arcanecode.com/2008/05/29/creating-and-customizing-noise-words-in-sql-server-2005-full-text-search/

где это объясняется (как это сделать). Придумать правильные, однако, сложно.

...