Какой анализатор lucene можно использовать для правильной обработки японского текста? Он должен быть в состоянии справиться с кандзи, хирагана, катакана, ромаджи и любой их комбинацией.
Вам, вероятно, стоит взглянуть на пакет CJK , который находится в области contrib Lucene. Есть анализатор и токенизатор специально для работы с китайским, японским и корейским языками.
Я нашел lucene-gosen во время поиска в своих целях:
Их пример выглядит довольно прилично, но я думаю, это то, что требует тщательного тестирования. Я также беспокоюсь об их политике обратной совместимости (точнее, о полном ее отсутствии).