Получите большие сегменты в тессеракте - PullRequest
0 голосов
/ 19 февраля 2019

Я хочу сегментировать скриншоты веб-сайтов (1366px * 1366px, PNG), и меня интересует только геометрия, а не распознанный текстовый контент.Вывод по умолчанию для tesseract - для каждого случая использования.Например, я хотел бы, чтобы несколько строк текста были объединены в виде абзаца.Так что я хочу простыми словами, это большие поля.

Я пробовал несколько параметров.Два из них приближают меня к тому, что я хочу:

  • textord_min_linesize <n>
  • textord_min_xheight <m>

Есть ли другие параметры (иликомбинации) из них, что я могу попытаться получить большие сегменты?Основная проблема в том, что большинство из 697 параметров, которые я могу выбрать, я не понимаю (даже с их кратким описанием).

ocrfeeder (ниже синим / зеленым цветом)) ближе к тому, что я имею в виду, но я не могу надежно вывести координаты, и абзацы могут быть еще больше.

Вывод тессеракта слева (красные прямоугольники) и вывод ocrfeeder справа (синего и зеленого прямоугольников).Я анализирую .hocr выходные файлы и отображаю классы ocr_par, которые я интерпретирую как абзацы:

imageimage

My experiments:

  1. Increase textord_min_xheight from a default of 10:

    tesseract input.png output -c tessedit_create_hocr=1 -c textord_min_xheight=15

    enter image description here

  2. Дальнейшее увеличение textord_min_xheight до 30 отбрасывает множество строк:

    tesseract input.png output -c tessedit_create_hocr=1 -c textord_min_xheight=30

    enter image description here

  3. Увеличение textord_min_linesize по умолчанию 1,25

    tesseract input.png output -c tessedit_create_hocr=1 -c textord_min_linesize=6

    enter image description here

Снимок экрана источника:

image

...