Я пытаюсь добавить возможности полнотекстового поиска в мое приложение RoR, но сталкиваюсь с некоторыми проблемами, когда дело касается арабского языка. AFAIK, не так много поисковых систем, поддерживающих арабский язык, морфологию и другой расширенный полнотекстовый поиск. Единственное, что я нашел, это Lucene с токенизатором AraMorph.
Плагин act_as_solr (solr основан на lucene, и этот плагин интегрирует его с Rails), похоже, заброшен, и я не могу найти никакой полезной документации.
Я изучил sphinx, xapian, ferret и acts_as_searchable, но ни один из них не предлагает расширенные возможности арабского поиска, насколько мне известно.
Любая помощь будет очень признательна
== Обновление
У меня есть предложения использовать sphinx, и я использовал его в более раннем проекте, и он работает просто отлично. Однако он не предоставляет никаких расширенных возможностей поиска.
например, слова: كتاب (книга), مكتبة (библиотека) и كاتب (писатель) все происходят от одного и того же корня كتب. Я хочу иметь возможность искать «писатель» и получать результаты для всех слов, полученных из одного и того же ствола.
Кроме того, я хочу, чтобы при поиске учитывались общие стили диктовки на арабском языке. Некоторые используют «хамза» (همزة), а некоторые нет. Другие пишут слова с буквой «taa marboota» (التاء المربوطة), а другие используют букву «haa» (الهاء). Хороший арабский поисковик должен понимать такие тонкие различия и искать их.
С помощью sphinx вы получаете только то, что ищете, и единственным механизмом, который я нашел для решения таких вопросов на арабском языке, был Lucene с токенайзером AraMorph. Однако act_as_solr (плагин Lucene для рельсов) оставлен. Итак, мой вопрос: есть ли другой такой токенизатор для любой поисковой системы?
KandadaBoggu упомянул солнечное пятно, я попробую и отвечу обратно