Я выполняю ocr на обрезанных изображениях, используя tesseract и pytesseract (в python).Одно из обрезанных изображений имеет формат даты dd/mm/yyyy
.Выходной текст, который я получаю - dd,/mm,/yyyy
.В чем причина этого?Как добиться улучшения качества OCR?
Я уже провел некоторую предварительную обработку обрезанных изображений, включая заполнение, морфологическое преобразование (ядро = эллипс).
gray = cv2.cvtColor(img2, cv2.COLOR_BGR2GRAY)
kernel1 = cv2.getStructuringElement(cv2.MORPH_ELLIPSE,(5,5))
close = cv2.morphologyEx(gray,cv2.MORPH_CLOSE,kernel1)
div = np.float32(gray)/(close)
res = np.uint8(cv2.normalize(div,div,0,255,cv2.NORM_MINMAX))
text = pytesseract.image_to_string(res, lang='eng', config=config)
Исходное изображение: 18/05/2007
выходной текст: 18, / 05, / 1997
ожидаемый текст: 18/05/1997