Тессеракт Мессинг с цифрами и символами - PullRequest
0 голосов
/ 11 ноября 2019

Я использую tesseract с прошлых нескольких месяцев, и, кажется, что когда есть буквенно-цифровые символы, они всегда путаются между похожими цифрами и символами, такими как 0 и O. Но мой вопрос - у документа, который я использую, точно такое же распределение шрифтов и пикселей0 во всех местах, но это только сбивает с толку, когда его присутствует в буквенно-цифровой. Есть ли способ остановить это? Я уже пробовал

api=PyTessBaseAPI(lang='eng+eng_1+eng_2+por+fra+spa') 
api.SetVariable("language_model_penalty_non_dict_word","0")
api.SetVariable("load_system_dawg","0")
api.SetVariable("language_model_penalty_non_freq_dict_word  ", "0");
api.SetVariable("load_freq_dawg", "0");
api.SetVariable("load_punc_dawg", "0");
api.SetVariable("load_number_dawg", "0");

Или любую предварительную обработку, которая может помочь. Или, может быть, обучение tesseract для этой конкретной проблемы?

Вот пример изображения enter image description here

Это будет сбивать с толку в "FROO11027143". Кроме того, в каком-то месте он также дает мне представление о 0, но все равно извлекает правильную информацию?

...