Ошибка OCR Тессеракта, вероятно из-за обученных данных - PullRequest
0 голосов
/ 17 октября 2019

Я использую pytesseract упаковщик, с Legacy Tesseract (oem 0). Это моя строка кода для извлечения текста из изображения:

try:
    # extracting ocr data from image
    ocr_data = pytesseract.image_to_data(
        img, lang="eng", output_type=pytesseract.Output.DATAFRAME,
        config="--oem 0"
    )

except Exception as e:
    print("Trace:", e)

Трассировка ошибок:

Трассировка: Tesseract OCR Engine с открытым исходным кодом v4.0.1 с LeptonicaПредупреждение: Неверное разрешение 0 точек на дюйм. Используя 70 вместо. Оценка разрешения в 389 тессерактов: intmatcher.cpp: 1160: void ScratchEvidence :: UpdateSumOfProtoEvidences (INT_CLASS, BIT_VECTOR): утверждение `ClassTemplate-> ProtoLengths [ActualProtoNum]

Я также пытался с командной строкой tesseract и получал точно такую ​​же ошибку. Используемая команда:

tesseract img.png out --oem 0 -l eng

Я использую файлы Tessdata, указанные по этой ссылке: https://github.com/tesseract-ocr/tessdata

Я искал в Google, но не смог найти никакой помощи!

...