Сохранение точек акронима при индексации в Lucene - PullRequest
2 голосов
/ 19 июля 2009

Если я хочу, чтобы Lucene сохранил точки акронимов (например, U.K, U.S.A. И т. Д.), Какой анализатор мне нужно использовать и как? Я также хочу ввести набор стоп-слов в Lucene при этом.

Ответы [ 2 ]

2 голосов
/ 20 июля 2009

A WhiteSpaceAnalyzer сохранит точки. A StopFilter удаляет список стоп-слов. Вы должны точно определить анализ, который вам нужен, а затем объединить анализаторы и токен-фильтры для его достижения или написать свой собственный анализатор .

0 голосов
/ 19 июля 2009

StandardTokenizer сохраняет точки, встречающиеся между буквами. Вы можете использовать StandardAnalyzer, который использует StandardTokenizer. Или вы можете создать свой собственный анализатор с помощью StandardTokenizer.

Исправление: StandardAnalyzer не поможет, поскольку он использует StandardFilter, который удаляет точки из аббревиатуры. Вы можете создать свой собственный анализатор с помощью StandardTokenizer и дополнительных фильтров (таких как фильтр нижнего регистра) минус StandardFilter.

...