Тессеракт сегментации страницы (смешанный рукописный и печатный текст) - PullRequest
0 голосов
/ 31 января 2020

У меня есть изображение со смешанным текстом - часть написана от руки, а другая напечатана. Я играл с сегментацией страницы hocr:

tesseract $FILENAME_FULL_PATH_NO_EXT".tif" $FILENAME_FULL_PATH_NO_EXT -l eng --psm 3 hocr

, пробовал разные значения psm, такие как 1, 3 и 12, но это не улучшило сегментацию, что привело к неправильной сегментации документа, как показано на рисунке ниже:

Есть ли способ, как я могу улучшить эту сегментацию? enter image description here

...