Я хочу сегментировать скриншоты веб-сайтов (1366px * 1366px, PNG), и меня интересует только геометрия, а не распознанный текстовый контент.Вывод по умолчанию для tesseract - для каждого случая использования.Например, я хотел бы, чтобы несколько строк текста были объединены в виде абзаца.Так что я хочу простыми словами, это большие поля.
Я пробовал несколько параметров.Два из них приближают меня к тому, что я хочу:
textord_min_linesize <n>
textord_min_xheight <m>
Есть ли другие параметры (иликомбинации) из них, что я могу попытаться получить большие сегменты?Основная проблема в том, что большинство из 697 параметров, которые я могу выбрать, я не понимаю (даже с их кратким описанием).
ocrfeeder (ниже синим / зеленым цветом)) ближе к тому, что я имею в виду, но я не могу надежно вывести координаты, и абзацы могут быть еще больше.
Вывод тессеракта слева (красные прямоугольники) и вывод ocrfeeder справа (синего и зеленого прямоугольников).Я анализирую .hocr
выходные файлы и отображаю классы ocr_par
, которые я интерпретирую как абзацы:
My experiments:
Increase textord_min_xheight
from a default of 10:
tesseract input.png output -c tessedit_create_hocr=1 -c textord_min_xheight=15
Дальнейшее увеличение textord_min_xheight
до 30 отбрасывает множество строк:
tesseract input.png output -c tessedit_create_hocr=1 -c textord_min_xheight=30
Увеличение textord_min_linesize
по умолчанию 1,25
tesseract input.png output -c tessedit_create_hocr=1 -c textord_min_linesize=6
Снимок экрана источника: