Как измерить размер текста, чтобы извлечь только определенные буквы из изображения в OpenCV? - PullRequest
0 голосов
/ 07 апреля 2020

Я хочу извлечь текст из номерного знака. На данный момент я использую pytesseract с opencv, чтобы сосредоточиться на соответствующих контурах и вытащить текст. Это работает прилично для неамериканских тарелок, но мне любопытно применить это к американским тарелкам, которые идут с множеством маленьких букв, окружающих большие идентификаторы тарелок. Я думал об использовании размера шрифта, чтобы отфильтровать буквы под определенным порогом. Это лучший подход?

ниже приведен код:

import cv2
import pytesseract
import imutils

#read image
image = cv2.imread('plateTest2.jpeg')
#RGB to Gray Scale converstion
gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
#noise removal 
gray = cv2.bilateralFilter(gray,11,17,17)
#find edges of the grayscale image
edged = cv2.Canny(gray, 170,200)
#Find contours based on Edges
_,cnts, new  = cv2.findContours(edged.copy(), cv2.RETR_LIST, cv2.CHAIN_APPROX_SIMPLE)
#Create copy of original image to draw all contours
img1 = image.copy()
cv2.drawContours(img1, cnts, -1, (0,255,0), 3)
#sort contours based on their area keeping minimum required area as '30' (anything smaller than this will not be considered)
cnts=sorted(cnts, key = cv2.contourArea, reverse = True)[:30]
NumberPlateCnt = None #we currently have no Number plate contour
#Top 30 Contours
img2 = image.copy()
cv2.drawContours(img2, cnts, -1, (0,255,0), 3)
idx='plateTest2.jpg'
    for c in cnts:
        peri = cv2.arcLength(c, True)
        approx = cv2.approxPolyDP(c, 0.02 * peri, True)
        # print ("approx = ",approx)
        if len(approx) == 4:  # Select the contour with 4 corners
            NumberPlateCnt = approx #This is our approx Number Plate Contour

            # Crop those contours and store it in Cropped Images folder
            x, y, w, h = cv2.boundingRect(c) #This will find out co-ord for plate
            new_img = gray[y:y + h, x:x + w] #Create new image
            cv2.imwrite('/' + 'cropped_' + str(idx), new_img) #Store new image
            #idx+=1

            break

    #Drawing the selected contour on the original image
    #print(NumberPlateCnt)
    cv2.drawContours(image, [NumberPlateCnt], -1, (0,255,0), 3)
    Cropped_img_loc = '/' + 'cropped_' + str(idx)#'cropped_images/8.png'
    #Use tesseract to covert image into string
    text = pytesseract.image_to_string(Cropped_img_loc, lang='eng')
    text = text.replace('.', '')
    text = text.replace(' ','')
    return text

Вот изображение пластины, которая возвращает слишком много текста, где появляются такие вещи, как 'SUNSHINESTATE':

enter image description here

Стоит ли полагаться на pytesseract для определения размера шрифта и фильтрации меньших символов? Или я должен фильтровать перед использованием размера контура? Ценю помощь.

...