Какой подходящий анализатор люцена использовать? - PullRequest
1 голос
/ 15 февраля 2012

У меня проблемы с индексированием имен элементов с помощью цифр и символов. образец моих данных показан ниже:

ANGLE BARS   ORANGE - 4.0MM 2 - 1/2"
B.I SQUARE TUBING     2" X 3"
B.I. PIPE S-40   10MM 3/8"
B.I SQUARE TUBING     1" X 2"
PLYWOOD   MARINE 3/4X4X8
PLYWOOD   STA. CLARA 1/8X4X8
PLYWOOD   STA. CLARA 3/16X4X8

Я хочу маркировать свои данные в белых или конечных пробелах, не опуская символы, потому что эти символы очень важны. так что всякий раз, когда я ищу "plywood sta. clara", "b.i square 2" X 3 "" или "angle orange 2 - 1/2", я получаю результат. Я попытался использовать анализатор пробелов, но символы были удалены. Я также попробовал Standardanalyzer, но стоп-слова и символы также пропали. какой анализатор лучше использовать вместо этого?

Ответы [ 2 ]

3 голосов
/ 15 февраля 2012

Вы можете использовать PatternAnalyzer , написав регулярное выражение или создать Custom Analyzer.

0 голосов
/ 15 февраля 2012

Попробуйте использовать org.apache.lucene.analysis.miscellaneous.PatternAnalyzer.Вы можете указать регулярное выражение для определения разделителей токенов.

...