Question

Я выполняю ocr на обрезанных изображениях, используя tesseract и pytesseract (в python).Одно из обрезанных изображений имеет формат даты dd/mm/yyyy.Выходной текст, который я получаю - dd,/mm,/yyyy.В чем причина этого?Как добиться улучшения качества OCR?

Я уже провел некоторую предварительную обработку обрезанных изображений, включая заполнение, морфологическое преобразование (ядро = эллипс).

gray = cv2.cvtColor(img2, cv2.COLOR_BGR2GRAY)
kernel1 = cv2.getStructuringElement(cv2.MORPH_ELLIPSE,(5,5))
close = cv2.morphologyEx(gray,cv2.MORPH_CLOSE,kernel1)
div = np.float32(gray)/(close)
res = np.uint8(cv2.normalize(div,div,0,255,cv2.NORM_MINMAX))
text = pytesseract.image_to_string(res, lang='eng', config=config)

Исходное изображение: 18/05/2007
выходной текст: 18, / 05, / 1997
ожидаемый текст: 18/05/1997

user898678 · Answer 1 · 03 апреля 2019

Если вы используете tesseract 4.x, используйте trainneddata из tessdata_best :

$ tesseract z9Rut.png - --dpi 300
18/05/1981

вывод тессеракта отличается от входного изображения

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

вывод тессеракта отличается от входного изображения

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы