У меня есть изображение ниже, используемое в Тессеракт OCR:
Мой код для обработки изображения:
# HOCR
with image[450:6200, 840:3550] as cropped:
imgPage = wi(image = cropped)
imageBlob = imgPage.make_blob('png')
horas = gerarHocr(imageBlob)
def gerarHocr(imageBlob):
image = Image.open(io.BytesIO(imageBlob))
markup = pytesseract.image_to_pdf_or_hocr(image, lang='por', extension='hocr', config='--psm 6')
soup = BeautifulSoup(markup, features='html.parser')
spans = soup.find_all('span', {'class' : 'ocrx_word'})
listHoras = []
...
return listHoras
Хотя мой OCR иногда путается и дублирует 8
с 3
и возвращает, например, 07:44/14:183
вместо 07:44/14:13
.
Я думаю, что если я удалю серые линии с помощью Wand, я улучшу уверенность OCR. Как мне это сделать, пожалуйста?
Спасибо,