Question

Я использую tesseract с прошлых нескольких месяцев, и, кажется, что когда есть буквенно-цифровые символы, они всегда путаются между похожими цифрами и символами, такими как 0 и O. Но мой вопрос - у документа, который я использую, точно такое же распределение шрифтов и пикселей0 во всех местах, но это только сбивает с толку, когда его присутствует в буквенно-цифровой. Есть ли способ остановить это? Я уже пробовал

api=PyTessBaseAPI(lang='eng+eng_1+eng_2+por+fra+spa') 
api.SetVariable("language_model_penalty_non_dict_word","0")
api.SetVariable("load_system_dawg","0")
api.SetVariable("language_model_penalty_non_freq_dict_word  ", "0");
api.SetVariable("load_freq_dawg", "0");
api.SetVariable("load_punc_dawg", "0");
api.SetVariable("load_number_dawg", "0");

Или любую предварительную обработку, которая может помочь. Или, может быть, обучение tesseract для этой конкретной проблемы?

Вот пример изображения

Это будет сбивать с толку в "FROO11027143". Кроме того, в каком-то месте он также дает мне представление о 0, но все равно извлекает правильную информацию?

Тессеракт Мессинг с цифрами и символами

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Тессеракт Мессинг с цифрами и символами

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы