Извлечение текстовых данных из капчи - PullRequest
0 голосов
/ 07 февраля 2019

Попытка разработать сценарий, который будет считывать изображения в OpenCV и удалять все ненужные данные в виде строк, точек, чтобы их было легко прочитать с помощью tesseract.

Ниже приведено фактическое изображение, переданное в OpenCV

enter image description here

Вот код, который считывает изображение и очищает его, насколько это возможно, но все еще недостаточно чист для тессеракта.

import numpy as np
import cv2

img = cv2.imread('test4.jpg',0)
cv2.imshow('image',img)

horizontal_inv = cv2.bitwise_not(img)
masked_img = cv2.bitwise_and(img, img)
masked_img_inv = cv2.bitwise_not(masked_img)

kernel = np.ones((3,3),np.uint8)
dilation = cv2.dilate(masked_img_inv, kernel)
cv2.imwrite("result1.jpg", dilation)

Вот изображение, которое скрипт получает после

enter image description here

Как можно улучшить скрипт таким образом, чтобы он делал буквы более жирными и удалял тонкие линии?

...