Арабский полнотекстовый поиск в RoR - PullRequest
0 голосов
/ 11 марта 2010

Я пытаюсь добавить возможности полнотекстового поиска в мое приложение RoR, но сталкиваюсь с некоторыми проблемами, когда дело касается арабского языка. AFAIK, не так много поисковых систем, поддерживающих арабский язык, морфологию и другой расширенный полнотекстовый поиск. Единственное, что я нашел, это Lucene с токенизатором AraMorph.

Плагин act_as_solr (solr основан на lucene, и этот плагин интегрирует его с Rails), похоже, заброшен, и я не могу найти никакой полезной документации.

Я изучил sphinx, xapian, ferret и acts_as_searchable, но ни один из них не предлагает расширенные возможности арабского поиска, насколько мне известно.

Любая помощь будет очень признательна

== Обновление
У меня есть предложения использовать sphinx, и я использовал его в более раннем проекте, и он работает просто отлично. Однако он не предоставляет никаких расширенных возможностей поиска.
например, слова: كتاب (книга), مكتبة (библиотека) и كاتب (писатель) все происходят от одного и того же корня كتب. Я хочу иметь возможность искать «писатель» и получать результаты для всех слов, полученных из одного и того же ствола.
Кроме того, я хочу, чтобы при поиске учитывались общие стили диктовки на арабском языке. Некоторые используют «хамза» (همزة), а некоторые нет. Другие пишут слова с буквой «taa marboota» (التاء المربوطة), а другие используют букву «haa» (الهاء). Хороший арабский поисковик должен понимать такие тонкие различия и искать их.

С помощью sphinx вы получаете только то, что ищете, и единственным механизмом, который я нашел для решения таких вопросов на арабском языке, был Lucene с токенайзером AraMorph. Однако act_as_solr (плагин Lucene для рельсов) оставлен. Итак, мой вопрос: есть ли другой такой токенизатор для любой поисковой системы?
KandadaBoggu упомянул солнечное пятно, я попробую и отвечу обратно

Ответы [ 2 ]

1 голос
/ 11 марта 2010

Вы должны попробовать это, расширив опции Thinking Sphinx

Читать это: http://www.expressionlab.com/2008/11/19/thinking-sphinx-in-arabic-unicode

1 голос
/ 11 марта 2010

Для Solr используйте Sunspot и Sunspot Rails .

Для использования Сфинкса Мышление Сфинкса

Оба камня превосходны и имеют большую базу для установки. Я использовал ThinkingSphinx в нескольких проектах и ​​очень рекомендую его.

...