pytesseract image_to_string не тянет строки, но нет ошибки - PullRequest
0 голосов
/ 26 апреля 2018

Я использую функцию image_to_string в пакете pytesseract для преобразования нескольких частей одного файла изображения в строку. Все части работают за исключением этого изображения:

enter image description here

Вот скрипт, который я использую для его преобразования:

from PIL import Image
import pytesseract
pytesseract.pytesseract.tesseract_cmd = 'C:/Program Files (x86)/Tesseract-OCR/tesseract'

im = Image.open('image.png')
text = pytesseract.image_to_string(im)
print(text)

Что дает вывод:

- \ - \ - \ N - \ - \ - \ - \ - \ N

Я попытался разбить изображение на более мелкие части, а также обработать изображение в формате JPG и PNG. Что я могу сделать, чтобы он вывел значения на картинке?

1 Ответ

0 голосов
/ 29 июня 2018

Использование другой сегментации страницы вместо стандартной, похоже, работает.

text = pytesseract.image_to_string(im,config ='--psm 6'))

Согласно вики Тессеракта, опция 6 предполагает единый блок текста. Я пробовал с другими вариантами, но только этот работал. Чтобы проверить другие методы сегментации страницы, прочитайте вики-тессерат о том, как улучшить качество изображения.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...