добавить индексируемый файл 'test.txt', содержимое файла:
word1.word2
что я должен сделать, чтобы lucene рассматривал "word1.word2" как два слова "word1" и "word2", а не "word1.word2"
Индексирование Lucene с помощью анализатора преобразует ваши слова в токены терминов (технически это преобразует слова в поля, образующие документ)
в основном вы можете
1) создайте StopAnalyzer и передайте HashSet со стоп-словом как "." (Период) это может отрицательно повлиять на индексирование (поскольку вы должны использовать один и тот же анализатор при поиске и индексации )
2) разделить. с пробелом и индексировать их
Это зависит от того, какой Analyzer вы используете. Краткий общий ответ будет состоять в использовании SimpleAnalyzer, который использует LetterTokenizer. LetterTokenizer разделяется на любую не-букву, включая символ точки. Если у вас есть более конкретные требования к токенизации, вы должны закодировать пользовательский класс Analyzer, чей метод tokenStream возвращает пользовательский объект TokenStream или Tokenizer .
Analyzer
SimpleAnalyzer
LetterTokenizer
tokenStream