Тессеракт OCR с использованием Java Tess4j - слова с большим размером шрифта не обнаружены - PullRequest
0 голосов
/ 29 августа 2018

Я новичок в Tess4j, и у меня проблема с извлечением текста из изображения png, когда есть несколько слов с большим размером шрифта, и ниже гораздо больше слов с меньшим размером шрифта (пожалуйста, смотрите фото, оно будет быть понятнее :)).

Например, для этого изображения результат распознавания:
строка 0: lodsufoisuf sdqu kljsdhfksj quskjdfhl ksjqfhskl
строка 1: Qsidhfkquf ksdjfhlk sjdfh ijsdhf qlkjksdhf hjd
enter image description here

В то время как для этого примера, где больше текста с большим размером шрифта, результат OCR будет:
строка 0: э-э-э-э * ст
строка 1: Iodsufoisuf sdqu kljsdhfksj quskjdfhl ksjqfhskl
строка 2: Qsidhfkquf ksdjfhlk sjdfh ijsdhf qlkjksdhf hjd
enter image description here

Вот мой код:

    Tesseract tesseract = new Tesseract();
    String inputPath="C:\\Users\\laogor\\Desktop\\souligne10.png";
    tesseract.setDatapath(".\\tessdata");      
    try {
        String stringOCR = tesseract.doOCR(new File(inputPath));
        String[] lines= stringOCR.split("\\n");
        int i =0;
        for (String string : lines) {
            System.out.println("line "+i+" : "+string);
            i++;
        }
    } catch (TesseractException e) {
        e.printStackTrace();
    }

Я пытался использовать метод getSegmentedRegions, но слова с большим размером шрифта никогда не обнаруживаются.

Раньше я использовал Tesseract в Python, и он работал хорошо.

...