Apache Tika не может определить язык по короткому предложению. Почему? - PullRequest
0 голосов
/ 01 октября 2019

Я пытался определить язык по короткой фразе и был удивлен, так как результат обнаружения неверен.

    LanguageDetector detector = new OptimaizeLangDetector();
    try {
        detector.loadModels();
    } catch (IOException e) {
        LOG.error(e.getMessage(), e);
        throw new ExceptionInInitializerError(e);
    }
    LanguageResult languageResult = detector.detect("Hello, my friend!")

languageResult содержит норвежский язык со "средней" вероятностью. Почему? Я думаю, что это должен быть английский. Более длинные фразы, кажется, обнаружены правильно. Значит ли это, что Apache Tika не следует использовать для коротких текстов?

1 Ответ

2 голосов
/ 01 октября 2019

Это не будет работать в коротком тексте. Как в документе, скажем:

Реализация API-интерфейса LanguageDetector, который использует https://github.com/optimaize/language-detector

С https://tika.apache.org/1.13/api/org/apache/tika/langdetect/OptimaizeLangDetector.html

Собираемся просмотреть этот github и проверитьпроблемы у них есть некоторые проблемы с короткими текстами.

Это программное обеспечение работает не так хорошо, когда вводимый текст для анализа короткий или нечистый. Например, твиты.

Из их https://github.com/optimaize/language-detector Сектора испытаний

...