Быстрая нормализация ESP - PullRequest
       22

Быстрая нормализация ESP

1 голос
/ 08 октября 2009

Я запускаю поисковое приложение на сервере FAST ESP. Теперь у меня есть проблема с нормализацией персонажа.

То, что я хочу, это искать «вюрт» и получать удар в «вюрт».

Я попытался настроить следующее в esp / etc / tokenizer / tokenization.xml

 <normalizationlist name="German to Norwegian">
   <normalization description="German u with diaeresis, to Norwegian u">
      <input>x75</input> 
      <output>xFC</output> 
      <output>x75</output>
   </normalization>
  </normalizationlist>

но, конечно, это переводит все u в ü, что бесполезно.

Как мне настроить это правильно?

Ответы [ 3 ]

1 голос
/ 20 октября 2009

Решение состоит в том, чтобы нормализовать каждый «специальный символ» к тому же «нормальному символу»;

ö -> o ø -> o å -> a ä -> a æ -> a

Это занимает немного времени, но работает!

0 голосов
/ 31 октября 2017

Также вы можете установить пользовательские словари, доступные в службе поддержки MS, затем можете предоставить словарь для каждого языка. Так что если вы установите немецкий язык, то поисковая система поймет, что вы пытаетесь найти, с помощью функции «Вы имели в виду»? Вы можете включить в поисковые запросы, как только у вас установлен словарь. Также не забудьте правильно настроить схему поиска с правильной кодировкой символов для многоязычной поддержки. Если документы в коллекции не проиндексированы с правильной кодировкой символов, любые усилия, которые вы предпринимаете при токенизации и завершении запросов, бесполезны.

0 голосов
/ 03 ноября 2009

Прочтите Avanced Logistics Guide. Он содержит главу о нормализации персонажа. При выполнении шагов из руководства все специальные символы будут рассматриваться как обычные символы. Поэтому поиск über даст те же результаты, что и поиск uber.

...