Улучшить качество тессеракта с помощью словарных слов и / или слов с переносами? - PullRequest
0 голосов
/ 31 августа 2018

Я распознаю старые газеты с тессерактом и в целом доволен результатами. Однако я замечаю, что тессеракт часто угадывает не слова, которые, как кажется, должны быть легко перехвачены и исправлены либо с помощью проверки по словарю, либо с помощью некоторого вероятностного предположения (например, как автозамена на телефоне). Например, в приведенном ниже отрывке тессеракт угадывает ar-resis для дефисного слова ar-rests и bricf для brief.

Ввод изображения excerpt from newspaper article

OCR выход

into the air, and making ar-
resis, The bricf battle followed
-bombarding of at least three po-

Если вы посмотрите на приложенное изображение, оба являются достаточно хорошими догадками, основанными исключительно на пикселях (то есть, в brief второй за последним символ, вероятно, больше похож на c, чем e) , bricf - это не то слово, которое появилось бы в английском словаре, и оно очень близко к слову, которое есть.

Это поднимает два связанных вопроса. Во-первых, есть ли параметр конфигурации, который увеличит вероятность того, что tesseract преобразует bricf в brief? Я попытался увеличить штраф за не словарные слова (language_model_penalty_non_dict_word) без видимого эффекта.

Во-вторых, есть ли опция, которая может заставить tesseract попытаться повторно объединить дефисные слова, такие как ar-resis до arresis (и, в идеале, сравнить со словарем, чтобы угадать arrests)?

...