Я использую LanguageIdentifierUpdateProcessor
для определения языка и, соответственно, для применения анализаторов к полям в solr.
В моем solrconfig.xml
я внес в белый список два языка en и hi , и порог составляет 0,8.
Но в моем случае обнаружены языки fr и it , и это совершенно неверно.
Он обнаруживает хинди и английский для очень немногих документов. Что может быть причиной этого? Я пытался использовать Apache Tika и Google Compact Compact Detection (CLD).