Я использую pytesseract упаковщик, с Legacy Tesseract (oem 0). Это моя строка кода для извлечения текста из изображения:
try:
# extracting ocr data from image
ocr_data = pytesseract.image_to_data(
img, lang="eng", output_type=pytesseract.Output.DATAFRAME,
config="--oem 0"
)
except Exception as e:
print("Trace:", e)
Трассировка ошибок:
Трассировка: Tesseract OCR Engine с открытым исходным кодом v4.0.1 с LeptonicaПредупреждение: Неверное разрешение 0 точек на дюйм. Используя 70 вместо. Оценка разрешения в 389 тессерактов: intmatcher.cpp: 1160: void ScratchEvidence :: UpdateSumOfProtoEvidences (INT_CLASS, BIT_VECTOR): утверждение `ClassTemplate-> ProtoLengths [ActualProtoNum]
Я также пытался с командной строкой tesseract и получал точно такую же ошибку. Используемая команда:
tesseract img.png out --oem 0 -l eng
Я использую файлы Tessdata, указанные по этой ссылке: https://github.com/tesseract-ocr/tessdata
Я искал в Google, но не смог найти никакой помощи!