Lucene.NET индексирует однобуквенные слова? - PullRequest
0 голосов
/ 18 октября 2011

Я использую Lucene.NET, когда пытаюсь проиндексировать, например, следующий текст: «В категории категории T zijn tijdelijke borden (zwarte tekst / symbolen op gele achtergrond) opgenomen die niet in перманентеuitvoering beschikbaar zijn. "

Речь идет о тексте, выделенном полужирным шрифтом, все хорошо проиндексировано, но один символ T будет игнорироваться.

Кто-нибудь знает эту проблему / проблему.Я использую следующий синтаксис.

doc.Add(new Field("text", text, Field.Store.NO, Field.Index.TOKENIZED));

1 Ответ

0 голосов
/ 18 октября 2011

«Т» - это стандартное слово по умолчанию в стандартном анализаторе. Вы можете предоставить свой собственный список стоп-слов при создании анализатора.

Просто создайте анализатор следующим образом:

StandardAnalyzer standardAnalyzer = new StandardAnalyzer(new string[]{"an", "a", /*other stopwords*/});

И использовать его при индексации и поиске.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...