Question

Я использую LanguageIdentifierUpdateProcessor для определения языка и, соответственно, для применения анализаторов к полям в solr.

В моем solrconfig.xml я внес в белый список два языка en и hi , и порог составляет 0,8.

Но в моем случае обнаружены языки fr и it , и это совершенно неверно.

Он обнаруживает хинди и английский для очень немногих документов. Что может быть причиной этого? Я пытался использовать Apache Tika и Google Compact Compact Detection (CLD).

LanguageIdentifierUpdateProcessor solr

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

LanguageIdentifierUpdateProcessor solr

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы