Я распознаю старые газеты с тессерактом и в целом доволен результатами. Однако я замечаю, что тессеракт часто угадывает не слова, которые, как кажется, должны быть легко перехвачены и исправлены либо с помощью проверки по словарю, либо с помощью некоторого вероятностного предположения (например, как автозамена на телефоне). Например, в приведенном ниже отрывке тессеракт угадывает ar-resis
для дефисного слова ar-rests
и bricf
для brief
.
Ввод изображения
OCR выход
into the air, and making ar-
resis, The bricf battle followed
-bombarding of at least three po-
Если вы посмотрите на приложенное изображение, оба являются достаточно хорошими догадками, основанными исключительно на пикселях (то есть, в brief
второй за последним символ, вероятно, больше похож на c
, чем e
) , bricf
- это не то слово, которое появилось бы в английском словаре, и оно очень близко к слову, которое есть.
Это поднимает два связанных вопроса. Во-первых, есть ли параметр конфигурации, который увеличит вероятность того, что tesseract преобразует bricf
в brief
? Я попытался увеличить штраф за не словарные слова (language_model_penalty_non_dict_word
) без видимого эффекта.
Во-вторых, есть ли опция, которая может заставить tesseract попытаться повторно объединить дефисные слова, такие как ar-resis
до arresis
(и, в идеале, сравнить со словарем, чтобы угадать arrests
)?