У меня есть обработанное отсканированное изображение, на котором я пытаюсь выполнить OCR. Изображение выглядит как 1 после преобразования его в двоичное и масштабирования, однако Tesseract не может извлечь буквенно-цифровые цифры, которые выделяются среди остальных.
Обработанное изображение для выполнения распознавания текста на
Ожидаемый результат будет " 123112 ", но я получаю jibberi sh, например, "* 53";. GxuimSaabz'ssiiämFi ”??? 1231 12 5 * ". Tessaract создается следующим образом через JNI (реализовано в Java 8):
instance = new Tesseract(); // JNA Interface Mapping
instance.setLanguage("swe");
instance.setOcrEngineMode(ITessAPI.TessOcrEngineMode.OEM_TESSERACT_ONLY);
Есть идеи, как мне улучшить результат?