Улучшение результата Тессеракта для отсканированного изображения - PullRequest
0 голосов
/ 02 марта 2020

У меня есть обработанное отсканированное изображение, на котором я пытаюсь выполнить OCR. Изображение выглядит как 1 после преобразования его в двоичное и масштабирования, однако Tesseract не может извлечь буквенно-цифровые цифры, которые выделяются среди остальных.

Обработанное изображение для выполнения распознавания текста на

Ожидаемый результат будет " 123112 ", но я получаю jibberi sh, например, "* 53";. GxuimSaabz'ssiiämFi ”??? 1231 12 5 * ". Tessaract создается следующим образом через JNI (реализовано в Java 8):

            instance = new Tesseract();  // JNA Interface Mapping
            instance.setLanguage("swe");
            instance.setOcrEngineMode(ITessAPI.TessOcrEngineMode.OEM_TESSERACT_ONLY);

Есть идеи, как мне улучшить результат?

...