Lucene довольно плохо поддерживает русский язык.
RussianAnalyzer (входит в состав lucene-contrib) очень низкого качества.
Модуль RussianStemmer для Snowball еще хуже. Он не распознает русский текст в строках Unicode, по-видимому, предполагая, что вместо этого необходимо использовать какое-то странное сочетание Unicode и KOI8-R.
Знаете ли вы лучшие решения?