Как обновить токены стандартного токенизатора - PullRequest
0 голосов
/ 05 августа 2020

Я использую стандартный токенизатор в своем плагине elasticsearch. Мне нужно перебрать каждый токен стандартного токенизатора и обновить зашифрованный текст до индекса lucene. Есть ли способ обновить токены стандартного токенизатора? Кто-нибудь может помочь?

1 Ответ

1 голос
/ 05 августа 2020

Это интересный вариант использования, но токенизатор IMHO не является правильным местом, где это должно быть сделано, в основном процесс анализа elasticsearch состоит из следующих трех этапов.

  1. фильтр символов
  2. токенизатор
  3. фильтр токенов

если вы хотите изменить некоторые символы, перед отправкой их в токенизатор сделайте это в фильтре символов или измените токены в фильтр токенов, как вы можете видеть на этих этапах, вы можете выполнить больше преобразований, чем на этапе токенизатора.

...