Tesseract-OCR не читает все символы из файлов изображений jpeg - PullRequest
0 голосов
/ 03 февраля 2020

Я пытаюсь прочитать определенные c поля из файла PDF, я конвертирую их в изображения, а затем читаю из изображений, используя opencv и tesseract-ocr, но некоторый текст пропускается и не читается, может помочь мне с ниже приведен фрагмент кода

filename = "page_"+str(i)+".jpg"
img_cv =  cv2.imread(filename)
custom_config = r'-l eng --oem 3 --psm 6 -c tessedit_char_blacklist=\/'
text =pytesseract.image_to_string(img_cv,config=custom_config)
text = text.replace('-\n', '')
f.write(text) 
...