Я пытался определить язык по короткой фразе и был удивлен, так как результат обнаружения неверен.
LanguageDetector detector = new OptimaizeLangDetector();
try {
detector.loadModels();
} catch (IOException e) {
LOG.error(e.getMessage(), e);
throw new ExceptionInInitializerError(e);
}
LanguageResult languageResult = detector.detect("Hello, my friend!")
languageResult содержит норвежский язык со "средней" вероятностью. Почему? Я думаю, что это должен быть английский. Более длинные фразы, кажется, обнаружены правильно. Значит ли это, что Apache Tika не следует использовать для коротких текстов?