Я применяю pytesseract к своему проекту, и я не получил желаемых результатов, поэтому я начал немного оптимизировать ...
- Я обучил шрифт из веб-сайт
- Я сделал двоичное изображение (черно-белое)
- Я поместил только те символы, которые будут иметь изображения (от A до Z в верхнем регистре)
- Поскольку они одиночные символ, я положил в конфигурации "- psm 10"
- В отчаянной мере, с Photoshop я поднял DPI с 72 до 600
Но даже при всем этом и имея четко выделенную и видимую букву, вместо «А» я получаю «Т» ... Есть ли что-то, в чем я терплю неудачу? Буду очень признателен за вашу помощь:)
import pytesseract
import pyautogui
import cv2
pytesseract.pytesseract.tesseract_cmd = 'C:\\Program Files\\Tesseract-OCR\\tesseract.exe'
celda1 = cv2.imread('imagen.jpg')
sret=pytesseract.image_to_string(celda1, config="-c tessedit"
"_char_whitelist=ABCDEFGHIJKLMNOPQRSTUVWXYZ"
" --psm 10"
" -l osd"
" ")
print(sret)