Разница между StandardTokenizerFactory и KeywordTokenizerFactory в Solr? - PullRequest
14 голосов
/ 04 октября 2011

Я новичок в Solr.Я хочу знать, когда использовать StandardTokenizerFactory и KeywordTokenizerFactory ?

Я читаю документы на Apache Wiki, но не получаю их.

Кто-нибудь может объяснить разницу между StandardTokenizerFactory и KeywordTokenizerFactory ?

1 Ответ

29 голосов
/ 04 октября 2011

StandardTokenizerFactory: -
Он разбивает на пробелы, а также разбивает символы

Документация: -

Разбивает слова на знаки препинания, удаляя знаки препинания.Однако точка, за которой не следует пробел, считается частью токена.Разбивает слова на дефисы, если в токене нет числа.В этом случае весь токен интерпретируется как номер продукта и не разделяется.Распознает адреса электронной почты и имена хостов в Интернете как один токен.

Используется для полей, в которых вы хотите выполнить поиск по данным поля.

например -

http://example.com/I-am+example?Text=-Hello

сгенерирует 7 токенов (через запятую) -

http,example.com,I,am,example,Text,Hello

KeywordTokenizerFactory: -

Ключевое слово Tokenizer вообще не разделяет ввод.
В строке не выполняется обработка,и вся строка обрабатывается как одна сущность.
На самом деле это не делает никакой токенизации.Возвращает исходный текст как один термин.

В основном используется для требований сортировки или фасетирования, когда вы хотите сопоставить точный фасет при фильтрации по нескольким словам и сортировке, так как сортировка не работает в токенизированных полях.

например,

http://example.com/I-am+example?Text=-Hello

сгенерирует один токен -

http://example.com/I-am+example?Text=-Hello
...