LanguageIdentifierUpdateProcessor solr - PullRequest
       40

LanguageIdentifierUpdateProcessor solr

0 голосов
/ 18 января 2012

Я использую LanguageIdentifierUpdateProcessor для определения языка и, соответственно, для применения анализаторов к полям в solr.

В моем solrconfig.xml я внес в белый список два языка en и hi , и порог составляет 0,8.

Но в моем случае обнаружены языки fr и it , и это совершенно неверно.

Он обнаруживает хинди и английский для очень немногих документов. Что может быть причиной этого? Я пытался использовать Apache Tika и Google Compact Compact Detection (CLD).

...