Question

Я использую Lucene.NET, когда пытаюсь проиндексировать, например, следующий текст: «В категории категории T zijn tijdelijke borden (zwarte tekst / symbolen op gele achtergrond) opgenomen die niet in перманентеuitvoering beschikbaar zijn. "

Речь идет о тексте, выделенном полужирным шрифтом, все хорошо проиндексировано, но один символ T будет игнорироваться.

Кто-нибудь знает эту проблему / проблему.Я использую следующий синтаксис.

doc.Add(new Field("text", text, Field.Store.NO, Field.Index.TOKENIZED));

Dmitriy · Answer 1 · 18 октября 2011

«Т» - это стандартное слово по умолчанию в стандартном анализаторе. Вы можете предоставить свой собственный список стоп-слов при создании анализатора.

Просто создайте анализатор следующим образом:

StandardAnalyzer standardAnalyzer = new StandardAnalyzer(new string[]{"an", "a", /*other stopwords*/});

И использовать его при индексации и поиске.

Lucene.NET индексирует однобуквенные слова?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Lucene.NET индексирует однобуквенные слова?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов