Как улучшить результат применения pytesseract? - PullRequest
0 голосов
/ 08 марта 2020

Я применяю pytesseract к своему проекту, и я не получил желаемых результатов, поэтому я начал немного оптимизировать ...

  • Я обучил шрифт из веб-сайт
  • Я сделал двоичное изображение (черно-белое)
  • Я поместил только те символы, которые будут иметь изображения (от A до Z в верхнем регистре)
  • Поскольку они одиночные символ, я положил в конфигурации "- psm 10"
  • В отчаянной мере, с Photoshop я поднял DPI с 72 до 600

Но даже при всем этом и имея четко выделенную и видимую букву, вместо «А» я получаю «Т» ... Есть ли что-то, в чем я терплю неудачу? Буду очень признателен за вашу помощь:)

import pytesseract
import pyautogui
import cv2
pytesseract.pytesseract.tesseract_cmd = 'C:\\Program Files\\Tesseract-OCR\\tesseract.exe'



celda1 = cv2.imread('imagen.jpg')



sret=pytesseract.image_to_string(celda1, config="-c tessedit"
                                         "_char_whitelist=ABCDEFGHIJKLMNOPQRSTUVWXYZ"
                                         " --psm 10"
                                         " -l osd"
                                         " ")



print(sret)

image

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...