Я использую tesseract с прошлых нескольких месяцев, и, кажется, что когда есть буквенно-цифровые символы, они всегда путаются между похожими цифрами и символами, такими как 0 и O. Но мой вопрос - у документа, который я использую, точно такое же распределение шрифтов и пикселей0 во всех местах, но это только сбивает с толку, когда его присутствует в буквенно-цифровой. Есть ли способ остановить это? Я уже пробовал
api=PyTessBaseAPI(lang='eng+eng_1+eng_2+por+fra+spa')
api.SetVariable("language_model_penalty_non_dict_word","0")
api.SetVariable("load_system_dawg","0")
api.SetVariable("language_model_penalty_non_freq_dict_word ", "0");
api.SetVariable("load_freq_dawg", "0");
api.SetVariable("load_punc_dawg", "0");
api.SetVariable("load_number_dawg", "0");
Или любую предварительную обработку, которая может помочь. Или, может быть, обучение tesseract для этой конкретной проблемы?
Вот пример изображения
Это будет сбивать с толку в "FROO11027143". Кроме того, в каком-то месте он также дает мне представление о 0, но все равно извлекает правильную информацию?