Я использую механизм распознавания текста Tesseract в приложении для iPhone, чтобы считывать определенные числовые поля из фотографий счета-фактуры.Использование большого количества предварительной обработки фотографий (адаптивная пороговая обработка, очистка артефактов и т. Д.) Дает, наконец, достаточно точные результаты, но есть некоторые случаи, которые я хочу улучшить.
Если пользователь делает фотографию в условиях низкой освещенностиВ условиях, когда на изображении присутствует шум или артефакты, механизм распознавания интерпретирует эти артефакты как дополнительные цифры.В некоторых задних случаях он может читать, например, числовую сумму «32,15» EUR как «5432,15» EUR, и это совсем не хорошо для окончательного доверия пользователя к продукту.
Я предполагаю, что, если есть внутренняя ошибка чтения механизма распознавания, связанная с каждым прочитанным символом, она будет выше на «54» цифрах моего предыдущего примера, поскольку они распознаются по маленьким пикселям шума, и если у меня был доступ к этому чтению,Значения ошибок Я смогу легко отбросить ошибочные цифры.
Известен ли вам какой-либо метод получения величины ошибки чтения (или любого значения «коэффициента точности») для каждого отдельного символа, возвращаемого из tesseractДвигатель OCR?