вывод тессеракта отличается от входного изображения - PullRequest
1 голос
/ 02 апреля 2019

Я выполняю ocr на обрезанных изображениях, используя tesseract и pytesseract (в python).Одно из обрезанных изображений имеет формат даты dd/mm/yyyy.Выходной текст, который я получаю - dd,/mm,/yyyy.В чем причина этого?Как добиться улучшения качества OCR?

Я уже провел некоторую предварительную обработку обрезанных изображений, включая заполнение, морфологическое преобразование (ядро = эллипс).

gray = cv2.cvtColor(img2, cv2.COLOR_BGR2GRAY)
kernel1 = cv2.getStructuringElement(cv2.MORPH_ELLIPSE,(5,5))
close = cv2.morphologyEx(gray,cv2.MORPH_CLOSE,kernel1)
div = np.float32(gray)/(close)
res = np.uint8(cv2.normalize(div,div,0,255,cv2.NORM_MINMAX))
text = pytesseract.image_to_string(res, lang='eng', config=config)

Исходное изображение: 18/05/2007
выходной текст: 18, / 05, / 1997
ожидаемый текст: 18/05/1997

1 Ответ

0 голосов
/ 03 апреля 2019

Если вы используете tesseract 4.x, используйте trainneddata из tessdata_best :

$ tesseract z9Rut.png - --dpi 300
18/05/1981
...