StandardTokenizerFactory: -
Он разбивает на пробелы, а также разбивает символы
Документация: -
Разбивает слова на знаки препинания, удаляя знаки препинания.Однако точка, за которой не следует пробел, считается частью токена.Разбивает слова на дефисы, если в токене нет числа.В этом случае весь токен интерпретируется как номер продукта и не разделяется.Распознает адреса электронной почты и имена хостов в Интернете как один токен.
Используется для полей, в которых вы хотите выполнить поиск по данным поля.
например -
http://example.com/I-am+example?Text=-Hello
сгенерирует 7 токенов (через запятую) -
http,example.com,I,am,example,Text,Hello
KeywordTokenizerFactory: -
Ключевое слово Tokenizer вообще не разделяет ввод.
В строке не выполняется обработка,и вся строка обрабатывается как одна сущность.
На самом деле это не делает никакой токенизации.Возвращает исходный текст как один термин.
В основном используется для требований сортировки или фасетирования, когда вы хотите сопоставить точный фасет при фильтрации по нескольким словам и сортировке, так как сортировка не работает в токенизированных полях.
например,
http://example.com/I-am+example?Text=-Hello
сгенерирует один токен -
http://example.com/I-am+example?Text=-Hello