Как добавить фильтр символов в анализатор языка Microsoft в Azure Search? - PullRequest
0 голосов
/ 04 июля 2019

мы хотим использовать анализаторы для конкретных языков, предоставляемые поиском по Azure, но добавим фильтр html_char из Lucene.Наша идея состояла в том, чтобы создать собственный анализатор, который использует те же компоненты (токенизатор, фильтры), что и, например, анализатор en.microsoft, но добавить дополнительный фильтр символов.

К сожалению, мы не можем найти никакой документации о том, что именнопредставляет собой анализатор en.microsoft или любой другой анализатор Microsoft.Мы не знаем, какие токенизаторы или фильтры использовать для получения того же результата с помощью специального анализатора.

Может кто-нибудь указать нам правильную документацию?

В документации сказано, что en.microsoftАнализатор выполняет лемматизацию вместо определения , но я не могу найти токенизатор или фильтр, который утверждает, что использует только лемматизацию.

1 Ответ

2 голосов
/ 18 июля 2019

Чтобы создать настроенную версию анализатора Microsoft, начните с токенайзера Microsoft для заданного языка (у нас есть версия с основами и без них) и добавьте фильтры токенов из набора доступных фильтров токенов, чтобы настроить выходной токен. поток. Обратите внимание, что токенизатор-стеминг также выполняет лемматизацию в зависимости от языка.

В большинстве случаев языковой анализатор Microsoft - это токенайзер Microsoft плюс фильтр токенов стоп-слов и фильтр токенов строчных букв, но это зависит от языка. В некоторых случаях мы делаем языковую нормализацию символов.

Мы рекомендуем использовать вышеуказанное в качестве отправной точки. Затем Analyze API можно использовать для тестирования вашей конфигурации, чтобы увидеть, дает ли он желаемые результаты.

...