У меня есть изображение со смешанным текстом - часть написана от руки, а другая напечатана. Я играл с сегментацией страницы hocr:
tesseract $FILENAME_FULL_PATH_NO_EXT".tif" $FILENAME_FULL_PATH_NO_EXT -l eng --psm 3 hocr
, пробовал разные значения psm, такие как 1, 3 и 12, но это не улучшило сегментацию, что привело к неправильной сегментации документа, как показано на рисунке ниже:
Есть ли способ, как я могу улучшить эту сегментацию?