Удалить нежелательные проиндексированные ключевые слова из Sql Server FTS Index - PullRequest
1 голос
/ 09 апреля 2010

Может ли кто-нибудь сказать мне, есть ли в SQL Server 2008 способ предотвратить индексацию ключевых слов, которые на самом деле не имеют отношения к типам поисковых запросов?

Например, у нас подключены фильтры IFilter для PDF и Word, и, насколько я могу судить, наши документы индексируются должным образом. Однако в этих документах много числовых значений, которые люди не будут искать или возвращать значимые результаты. Они все еще индексируются и создают много записей в полнотекстовом каталоге. По сути, мы пытаемся оптимизировать нашу поисковую систему любым доступным способом и предполагаем, что все эти ненужные записи не могут повысить производительность. Я хочу, чтобы мой каталог состоял только из буквенных ключевых слов. Текущие iFilters работают лучше, чем я мог бы написать за то время, которое у меня есть, но у него просто больше, чем мне нужно.

Это пример некоторых терминов из sys.dm_fts_index_keywords_by_document, которые я хочу вывести:

$ 1000, $ 100, $ 250, 100, 101, 102, 103, 104, 105, 106, 107, 108, 109, 110, 111, 112, 113, 114, 129, 13,1, 14, 14,12, 145, 15, 16,2, 16,4, 18, 18,1, 18,2, 18,3, 18,4, 18,5

Вот некоторые примеры из того же управленческого взгляда, которые я считаю желательными для хранения и поиска:

выше, соответственно, Счета, добавлять, Кроме того, дополнительные, Добавка

Любая помощь будет принята с благодарностью!

Ответы [ 2 ]

0 голосов
/ 09 апреля 2010

Смотрите здесь: Стоп-слова и стоп-листы .

Синтаксис:

CREATE FULLTEXT STOPLIST MyList [FROM SYSTEM STOPLIST]

ALTER FULLTEXT STOPLIST MyList ADD 'above' LANGUAGE 'English'
ALTER FULLTEXT STOPLIST MyList ADD 'accordingly' LANGUAGE 'English'

и т. Д.

Вы также можете управлять всем этим через SSMS - это в [Your database] > Storage > Full Text Stoplists.

0 голосов
/ 09 апреля 2010

Не уверен насчет SQL Server 2008, но в 2000 и 2005 годах вы могли редактировать файлы noise. См. здесь и здесь .

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...