Java Lucene английский Stemmer? - PullRequest
       5

Java Lucene английский Stemmer?

2 голосов
/ 09 января 2010

Мне нужна помощь в индексации и поиске английского текста с использованием Java Lucene через Google App Engine. Единственное решение, которое я нашел, - это SnowballAnalyzer (в пакетах contrib), но он поддерживает только Lucene 3.0, а GAELucene поддерживает только lucene 2.3.1. Просто смена банок на самом деле не работает ..

Может ли кто-нибудь помочь мне индексировать мой текст на английском языке?

Спасибо!

Ответы [ 4 ]

2 голосов
/ 09 января 2010

SnowballAnalyzer уже давно работает с Lucene, включая версии 2.x (см. его запись в документации по API 2.4.1).

Как ни странно, он не входит в стандартный дистрибутив Lucene, даже если он равен в документации. Вам нужно будет найти версию пакета contrib, который будет использоваться для 2.3.1.

Редактировать: похоже, здесь есть копия .

1 голос
/ 10 января 2010

PorterStemFilter находится в ядре люцена. Может использоваться с StandardAnalyzer для английского языка.

1 голос
/ 10 января 2010

Различные компании также продают более сложные и / или более быстрые альтернативы Портеру Стеммерсу, реализованные в интерпретаторе Snowball. Если у вас есть потребности в этом направлении, оставьте комментарий, и я уточню, но я не хочу, чтобы меня обвиняли в необоснованной рекламе, поэтому я пока оставлю это там.

0 голосов
/ 10 января 2010

Вы можете использовать lucene-2.3.1.zip или соседние файлы в архиве Lucene. Однако я не уверен в степени настройки, доступной в GAELucene. Кажется, он не может принимать произвольные анализаторы.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...