мы хотим использовать анализаторы для конкретных языков, предоставляемые поиском по Azure, но добавим фильтр html_char из Lucene.Наша идея состояла в том, чтобы создать собственный анализатор, который использует те же компоненты (токенизатор, фильтры), что и, например, анализатор en.microsoft, но добавить дополнительный фильтр символов.
К сожалению, мы не можем найти никакой документации о том, что именнопредставляет собой анализатор en.microsoft или любой другой анализатор Microsoft.Мы не знаем, какие токенизаторы или фильтры использовать для получения того же результата с помощью специального анализатора.
Может кто-нибудь указать нам правильную документацию?
В документации сказано, что en.microsoftАнализатор выполняет лемматизацию вместо определения , но я не могу найти токенизатор или фильтр, который утверждает, что использует только лемматизацию.