Как повысить точность Pytesseract при извлечении цифр - PullRequest
0 голосов
/ 02 июля 2019

Я тестирую Pytesseract и использую его для извлечения цифр, подобных приведенной ниже.

enter image description here

Изображение довольно приличного качества (200 точек на дюйм). Однако, когда я запускаю pytesseract, он дает мне результат 456- / 8-0000 , где цифра 7 ошибочно распознается как '/'. Хотя «/» явно имеет некоторое сходство с цифрой 7, учитывая высокое качество изображения, я все равно удивлен этим.

Я пробовал оба

pytesseract.image_to_string(img)

и

pytesseract.image_to_string(img, lang='eng', config='--psm 13 --oem 2 -c tessedit_char_whitelist=0123456789-')

оба дали один и тот же результат.

Любой указатель на то, как повысить точность распознавания, был бы великолепен. Спасибо!

1 Ответ

0 голосов
/ 05 июля 2019

Какую версию tesseract вы используете.Какие тессдаты?С последним тессерактом и англ из tessdata-лучший результат идеален:

> tesseract 0mIe5.png  - quiet
456-78-0000
...