Solr для арабского - PullRequest
       4

Solr для арабского

7 голосов
/ 20 октября 2011

Я использую Solr для индексации документов на 3 языках (арабском, французском и английском), я использовал это fieldType:

<fieldType name="text_general" class="solr.TextField" positionIncrementGap="100">
    <analyzer type="index">
        <tokenizer class="solr.StandardTokenizerFactory"/>
        <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true"/>
        <filter class="solr.LowerCaseFilterFactory"/>
    </analyzer>
    <analyzer type="query">
      <tokenizer class="solr.StandardTokenizerFactory"/>
        <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true"/> 
        <filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/>
        <filter class="solr.LowerCaseFilterFactory"/>
    </analyzer>
</fieldType>

Все было хорошо, но на арабском языке, когда я ставил этот запросискать слово типа حقل Solr не находит слова, но когда я помещаю слово напротив لقح слева направо, Solr находит слово и возвращает результат.

Можно ли получить результат дляарабские слова?

1 Ответ

5 голосов
/ 20 октября 2011

Я собираюсь обратить умный анализ Даниэля здесь к ответу для протокола.Не голосуйте за это, просто найдите что-то его, чтобы голосовать: -)

Есть два способа получить несоответствие направленности с текстом RTL.Вы можете индексировать его задом наперед или запрашивать его задом наперед.Простая HTML-форма, запрашивающая Solr, никогда не испортит направленность.Для этого Халед извлекал текст из PDF-файла, используя библиотеку, которая становится жертвой тенденции PDF-файлов содержать текст «визуального порядка», а не «логического порядка».Таким образом, индекс был полон отсталого арабского языка.Чтобы это исправить, ему нужно будет создать рабочую библиотеку, которая извлекает текст из PDF-файлов.

Может помочь принудительное использование Apache Tika последней версии Apache PDFbox, или его PDF может быть настолько странным, что даже последняя версия PDFBoxне могу справиться с этим.В этом случае у него серьезные проблемы.

...