Индексирование специальных символов - PullRequest
1 голос
/ 10 марта 2011

Я создаю индекс Lucene 3.0.3, используя StandardAnalyzer .

когда поиск выполняется по индексу с использованием запроса типа C , C # или C ++ , он дает одинаковый результат для всех этих трех терминов. Как, я знаю, при создании анализатора индекса игнорировать специальный символ и не создавать индекс для того же.

Необходимо уметь различать "C", "C #" и "C ++"

, пожалуйста, предложите мне, какой-нибудь существующий анализатор решит эту проблему?

Любое предложение будет оценено !!!

Ответы [ 2 ]

2 голосов
/ 10 марта 2011

Я полагаю, это происходит из-за того, что StandardAnalyzer использует StandardFilter, который использует StandardTokenizer, который удаляет специальные символы.
Вы можете создать собственную реализацию Analyzer.

0 голосов
/ 11 марта 2011
...