Я хочу сегментировать скриншоты веб-сайтов (1366px * 1366px, PNG), и меня интересует только геометрия, а не распознанный текстовый контент.Вывод по умолчанию для tesseract - для каждого случая использования.Например, я хотел бы, чтобы несколько строк текста были объединены в виде абзаца.Так что я хочу простыми словами, это большие поля.
Я пробовал несколько параметров.Два из них приближают меня к тому, что я хочу:
textord_min_linesize <n>
textord_min_xheight <m>
Есть ли другие параметры (иликомбинации) из них, что я могу попытаться получить большие сегменты?Основная проблема в том, что большинство из 697 параметров, которые я могу выбрать, я не понимаю (даже с их кратким описанием).
ocrfeeder (ниже синим / зеленым цветом)) ближе к тому, что я имею в виду, но я не могу надежно вывести координаты, и абзацы могут быть еще больше.
Вывод тессеракта слева (красные прямоугольники) и вывод ocrfeeder справа (синего и зеленого прямоугольников).Я анализирую .hocr
выходные файлы и отображаю классы ocr_par
, которые я интерпретирую как абзацы:
![image](https://i.stack.imgur.com/wNmEW.png)
![image](https://i.stack.imgur.com/cvL39.png)
My experiments:
Increase textord_min_xheight
from a default of 10:
tesseract input.png output -c tessedit_create_hocr=1 -c textord_min_xheight=15
![enter image description here](https://i.stack.imgur.com/V63vU.png)
Дальнейшее увеличение textord_min_xheight
до 30 отбрасывает множество строк:
tesseract input.png output -c tessedit_create_hocr=1 -c textord_min_xheight=30
![enter image description here](https://i.stack.imgur.com/OBPUV.png)
Увеличение textord_min_linesize
по умолчанию 1,25
tesseract input.png output -c tessedit_create_hocr=1 -c textord_min_linesize=6
![enter image description here](https://i.stack.imgur.com/56MTo.png)
Снимок экрана источника:
![image](https://i.stack.imgur.com/TecyW.png)