Анализатор русского языка в Lucene и Lucene.Net - PullRequest
15 голосов
/ 15 сентября 2008

Lucene довольно плохо поддерживает русский язык.

RussianAnalyzer (входит в состав lucene-contrib) очень низкого качества.

Модуль RussianStemmer для Snowball еще хуже. Он не распознает русский текст в строках Unicode, по-видимому, предполагая, что вместо этого необходимо использовать какое-то странное сочетание Unicode и KOI8-R.

Знаете ли вы лучшие решения?

Ответы [ 5 ]

4 голосов
/ 11 августа 2010

Мой ответ, вероятно, слишком поздно, но для записи я нашел анализаторы из проекта AOT намного лучше, чем те, которые поставляются с Lucene.

3 голосов
/ 19 января 2012
2 голосов
/ 21 марта 2015

Проект http://code.google.com/p/russianmorphology/ перемещен в https://github.com/AKuznetsov/russianmorphology. Пожалуйста, примите во внимание новый хостинг этого проекта.

2 голосов
/ 15 сентября 2008

Если ничего не помогает, используйте Sphinx

0 голосов
/ 11 ноября 2008

В этом прелесть открытого кода. У вас есть исходный код, поэтому, если текущие реализации не работают для вас, вы всегда можете создать свой собственный или, что еще лучше, расширить существующие. Хорошим началом была бы книга "Lucene in Action".

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...