Question

Я тестирую Pytesseract и использую его для извлечения цифр, подобных приведенной ниже.

Изображение довольно приличного качества (200 точек на дюйм). Однако, когда я запускаю pytesseract, он дает мне результат 456- / 8-0000 , где цифра 7 ошибочно распознается как '/'. Хотя «/» явно имеет некоторое сходство с цифрой 7, учитывая высокое качество изображения, я все равно удивлен этим.

Я пробовал оба

pytesseract.image_to_string(img)

и

pytesseract.image_to_string(img, lang='eng', config='--psm 13 --oem 2 -c tessedit_char_whitelist=0123456789-')

оба дали один и тот же результат.

Любой указатель на то, как повысить точность распознавания, был бы великолепен. Спасибо!

user898678 · Answer 1 · 05 июля 2019

Какую версию tesseract вы используете.Какие тессдаты?С последним тессерактом и англ из tessdata-лучший результат идеален:

> tesseract 0mIe5.png  - quiet
456-78-0000

Как повысить точность Pytesseract при извлечении цифр

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как повысить точность Pytesseract при извлечении цифр

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы