Question

добавить индексируемый файл 'test.txt', содержимое файла:

word1.word2

что я должен сделать, чтобы lucene рассматривал "word1.word2" как два слова "word1" и "word2", а не "word1.word2"

Narayan · Answer 1 · 21 марта 2011

Индексирование Lucene с помощью анализатора преобразует ваши слова в токены терминов (технически это преобразует слова в поля, образующие документ)

в основном вы можете

1) создайте StopAnalyzer и передайте HashSet со стоп-словом как "." (Период) это может отрицательно повлиять на индексирование (поскольку вы должны использовать один и тот же анализатор при поиске и индексации )

2) разделить. с пробелом и индексировать их

Robert Bossy · Answer 2 · 21 марта 2011

Это зависит от того, какой Analyzer вы используете. Краткий общий ответ будет состоять в использовании SimpleAnalyzer, который использует LetterTokenizer. LetterTokenizer разделяется на любую не-букву, включая символ точки. Если у вас есть более конкретные требования к токенизации, вы должны закодировать пользовательский класс Analyzer, чей метод tokenStream возвращает пользовательский объект TokenStream или Tokenizer .

Как настроить индексатор так, чтобы «word1.word2» считался двумя словами

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как настроить индексатор так, чтобы «word1.word2» считался двумя словами

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы