Pytesseract не может распознать цифры из бинаризованного изображения - PullRequest
1 голос
/ 11 октября 2019

В настоящее время я сталкиваюсь с проблемой с pytesseract, когда программное обеспечение не может обнаружить число на этом изображении:

enter image description here

По какой-то причине pytesseractне хочет распознавать цифры на этом изображении. Какие-либо предложения? Вот мой код:

import pytesseract
from PIL import ImageEnhance, ImageFilter, Image

img = r'/content/inv_thresh.png'
​
str = pytesseract.image_to_string(Image.open(img), lang='eng', \
       config='--psm 8 --oem 3 -c tessedit_char_whitelist=0123456789')

Возвращает строку COTO

1 Ответ

0 голосов
/ 12 октября 2019
  1. Почему вы указываете --oem 3 (Default, based on what is available.)
  2. Какую модель вы используете? Какая версия tesseract?
  3. Tesseract ожидает четкого изображения без артефактов для получения правильных результатов => вам понадобится лучшее изображение для предварительной обработки.

Я получил следующий результат в режиме tessdata_best с недавним tesseract (4.1/5.0alpha):

tesseract a9Uq4.png - --psm 8 --dpi 70
00308
...