Индексирование токенов биграммы в Lucene - PullRequest
6 голосов
/ 17 марта 2009

Мне нужно индексировать биграммы слов (токенов) в Lucene. Я могу произвести n-грамм и индексировать их, но мне интересно, есть ли что-то в Lucene, которое сделает это для меня. Я узнал, что Lucene индексирует только n-грамм символов. Есть идеи?

Ответы [ 3 ]

2 голосов
/ 17 марта 2009
1 голос
/ 15 июня 2011

Класс, который вы ищете, это ShingleFilter: http://lucene.apache.org/java/2_4_0/api/org/apache/lucene/analysis/shingle/ShingleFilter.html

0 голосов
/ 17 марта 2009

В зависимости от того, зачем вам нужно индексировать биграммы, SpanQuery и / или SnowballAnalyzer может быть полезным.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...