Question

Я разрабатываю приложение, которое поддерживает индексирование и поиск многоязычных текстов, включая иврит, с использованием механизма "solr".

После многих поисков я обнаружил, что HebMorph - лучший плагин для использованиядля иврита

Моя проблема в том, что поведение HebMorph с ивритскими стоп-словами, похоже, отличается от solr:

с solr (любой язык): когда я ищустоп-слово, возвращаемые результаты не включают в себя ни одного из стоп-слов, существующих в запросе.
Принимая во внимание, когда я ищу термины на иврите (после включения HebMorh в solr по следующей этой ссылке , возвращаемые результаты включают все существующие стоп-слова в запросе.

1) Это нормальное поведение для HebMorph?Если да, как я могу изменить это?Если нет, что я должен изменить?

2) Поскольку HebMorph не поддерживает синонимы (как я прочитал в их документации, это будет будущая работа).Есть ли способ использовать синонимы для иврита в качестве других языков, как это поддерживает Solr?(т.е. добавив соответствующий фильтр в solrconfig и указав на файл синонимов)?

Заранее спасибо за помощь.

synhershko · Answer 1 · 22 мая 2018

Я являюсь автором HebMorph.

StopWords действительно поддерживаются, но вам нужно отфильтровать их до того, как включится лемматизатор. Предполагая недавнюю версию HebMorph - ваш фильтр стоп-слов должен войти правильнопосле токенизатора, что означает, что он должен позаботиться и о буквах בחל"מ, прикрепленных к стоп-словам.

В настоящее время общий совет для всех языков - НЕ опускать стоп-слова - по крайней мере, не при индексации., поэтому я бы рекомендовал не применять здесь фильтр стоп-слов.

Что касается синонимов - основная проблема заключается в том, что лемматизатор HebMorph расширяет слово до нескольких лемм, что делает работу по применениюСинонимы немного сложнее. С (относительно) новыми анализаторами на основе графиков это теперь возможно сделать, поэтому мы, вероятно, также осуществим это, и фильтры синонимов Lucene будут поддерживаться OOTB.

В коммерческой версии уже естьспособ настроить списки слов и переопределить определения словаря, которыеch полезен в неоднозначном языке, таком как иврит.Многие используют это как способ создания синонимов.

HebMorph с Solr: как использовать стоп-слова

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

HebMorph с Solr: как использовать стоп-слова

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы