Цель состоит в том, чтобы сделать приложение ocr с использованием tesseract, я не хотел использовать tess-two, так как он работает на более старой версии tesseract. Поэтому после небольшого исследования я смог найти эту библиотеку , которая использует tesseract 4 и является форком Tess-Two. Я могу извлечь текст из изображения с помощью этой библиотеки. Но моя проблема в том, что иногда одно и то же изображение дает 80% текста, а иногда - 2%. Вот изображение:
и результат ocr
, тогда как изображения, имеющие формат таблицы, не дают никакого результата, только случайные буквы.
Я новичок в ocr, предварительная обработка, кто-нибудь может мне помочь, как я могу улучшить точность изображения? Я прочитал, что предварительная обработка может быть сделана, это поможет и как это может быть выполнено?
Спасибо!