Как настроить индексатор так, чтобы «word1.word2» считался двумя словами - PullRequest
0 голосов
/ 21 марта 2011

добавить индексируемый файл 'test.txt', содержимое файла:

word1.word2

что я должен сделать, чтобы lucene рассматривал "word1.word2" как два слова "word1" и "word2", а не "word1.word2"

Ответы [ 2 ]

1 голос
/ 21 марта 2011

Индексирование Lucene с помощью анализатора преобразует ваши слова в токены терминов (технически это преобразует слова в поля, образующие документ)

в основном вы можете

1) создайте StopAnalyzer и передайте HashSet со стоп-словом как "." (Период) это может отрицательно повлиять на индексирование (поскольку вы должны использовать один и тот же анализатор при поиске и индексации )

2) разделить. с пробелом и индексировать их

0 голосов
/ 21 марта 2011

Это зависит от того, какой Analyzer вы используете. Краткий общий ответ будет состоять в использовании SimpleAnalyzer, который использует LetterTokenizer. LetterTokenizer разделяется на любую не-букву, включая символ точки. Если у вас есть более конкретные требования к токенизации, вы должны закодировать пользовательский класс Analyzer, чей метод tokenStream возвращает пользовательский объект TokenStream или Tokenizer .

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...