Какой анализатор lucene можно использовать для обработки текста на японском языке? - PullRequest
8 голосов
/ 26 октября 2009

Какой анализатор lucene можно использовать для правильной обработки японского текста? Он должен быть в состоянии справиться с кандзи, хирагана, катакана, ромаджи и любой их комбинацией.

Ответы [ 2 ]

4 голосов
/ 26 октября 2009

Вам, вероятно, стоит взглянуть на пакет CJK , который находится в области contrib Lucene. Есть анализатор и токенизатор специально для работы с китайским, японским и корейским языками.

3 голосов
/ 18 октября 2011

Я нашел lucene-gosen во время поиска в своих целях:

Их пример выглядит довольно прилично, но я думаю, это то, что требует тщательного тестирования. Я также беспокоюсь об их политике обратной совместимости (точнее, о полном ее отсутствии).

...