Я новичок в Tess4j, и у меня проблема с извлечением текста из изображения png, когда есть несколько слов с большим размером шрифта, и ниже гораздо больше слов с меньшим размером шрифта (пожалуйста, смотрите фото, оно будет быть понятнее :)).
Например, для этого изображения результат распознавания:
строка 0: lodsufoisuf sdqu kljsdhfksj quskjdfhl ksjqfhskl
строка 1: Qsidhfkquf ksdjfhlk sjdfh ijsdhf qlkjksdhf hjd
В то время как для этого примера, где больше текста с большим размером шрифта, результат OCR будет:
строка 0: э-э-э-э * ст
строка 1: Iodsufoisuf sdqu kljsdhfksj quskjdfhl ksjqfhskl
строка 2: Qsidhfkquf ksdjfhlk sjdfh ijsdhf qlkjksdhf hjd
Вот мой код:
Tesseract tesseract = new Tesseract();
String inputPath="C:\\Users\\laogor\\Desktop\\souligne10.png";
tesseract.setDatapath(".\\tessdata");
try {
String stringOCR = tesseract.doOCR(new File(inputPath));
String[] lines= stringOCR.split("\\n");
int i =0;
for (String string : lines) {
System.out.println("line "+i+" : "+string);
i++;
}
} catch (TesseractException e) {
e.printStackTrace();
}
Я пытался использовать метод getSegmentedRegions, но слова с большим размером шрифта никогда не обнаруживаются.
Раньше я использовал Tesseract в Python, и он работал хорошо.