Я протестировал 3 стемеров Lucene, доступных из org.apache.lucene.analysis.en
версии 4.4.0 , которые EnglishMinimalStemFilter
, KStemFilter
и PorterStemFilter
, в задаче классификации документов, над которой я работаю на. Мои результаты подтверждают утверждения, сделанные авторами Введение в поиск информации , что для небольших обучающих корпусов при настройке классификации документов является вредным, а для крупных корпусов - не имеет значения .
Для поиска и индексации может оказаться более полезным использование стемминга (см., Например, Jenkins & Smith ), но даже там ответ на ваш вопрос зависит от деталей того, что вы делаете. Нет бесплатного обеда!
В конце концов, ничто не сравнится с эмпирическими тестами реального кода на реальных данных . Единственный способ узнать, что лучше, - это запустить для себя стеммеры в своем приложении.