HebMorph с Solr: как использовать стоп-слова - PullRequest
0 голосов
/ 21 мая 2018

Я разрабатываю приложение, которое поддерживает индексирование и поиск многоязычных текстов, включая иврит, с использованием механизма "solr".

После многих поисков я обнаружил, что HebMorph - лучший плагин для использованиядля иврита

Моя проблема в том, что поведение HebMorph с ивритскими стоп-словами, похоже, отличается от solr:

  • с solr (любой язык): когда я ищустоп-слово, возвращаемые результаты не включают в себя ни одного из стоп-слов, существующих в запросе.

  • Принимая во внимание, когда я ищу термины на иврите (после включения HebMorh в solr по следующей этой ссылке , возвращаемые результаты включают все существующие стоп-слова в запросе.

1) Это нормальное поведение для HebMorph?Если да, как я могу изменить это?Если нет, что я должен изменить?

2) Поскольку HebMorph не поддерживает синонимы (как я прочитал в их документации, это будет будущая работа).Есть ли способ использовать синонимы для иврита в качестве других языков, как это поддерживает Solr?(т.е. добавив соответствующий фильтр в solrconfig и указав на файл синонимов)?

Заранее спасибо за помощь.

1 Ответ

0 голосов
/ 22 мая 2018

Я являюсь автором HebMorph.

StopWords действительно поддерживаются, но вам нужно отфильтровать их до того, как включится лемматизатор. Предполагая недавнюю версию HebMorph - ваш фильтр стоп-слов должен войти правильнопосле токенизатора, что означает, что он должен позаботиться и о буквах בחל"מ, прикрепленных к стоп-словам.

В настоящее время общий совет для всех языков - НЕ опускать стоп-слова - по крайней мере, не при индексации., поэтому я бы рекомендовал не применять здесь фильтр стоп-слов.

Что касается синонимов - основная проблема заключается в том, что лемматизатор HebMorph расширяет слово до нескольких лемм, что делает работу по применениюСинонимы немного сложнее. С (относительно) новыми анализаторами на основе графиков это теперь возможно сделать, поэтому мы, вероятно, также осуществим это, и фильтры синонимов Lucene будут поддерживаться OOTB.

В коммерческой версии уже естьспособ настроить списки слов и переопределить определения словаря, которыеch полезен в неоднозначном языке, таком как иврит.Многие используют это как способ создания синонимов.

...