Question

Я использую функцию image_to_string в пакете pytesseract для преобразования нескольких частей одного файла изображения в строку. Все части работают за исключением этого изображения:

Вот скрипт, который я использую для его преобразования:

from PIL import Image
import pytesseract
pytesseract.pytesseract.tesseract_cmd = 'C:/Program Files (x86)/Tesseract-OCR/tesseract'

im = Image.open('image.png')
text = pytesseract.image_to_string(im)
print(text)

Что дает вывод:

- \ - \ - \ N - \ - \ - \ - \ - \ N

Я попытался разбить изображение на более мелкие части, а также обработать изображение в формате JPG и PNG. Что я могу сделать, чтобы он вывел значения на картинке?

timedacorn · Answer 1 · 29 июня 2018

Использование другой сегментации страницы вместо стандартной, похоже, работает.

text = pytesseract.image_to_string(im,config ='--psm 6'))

Согласно вики Тессеракта, опция 6 предполагает единый блок текста. Я пробовал с другими вариантами, но только этот работал. Чтобы проверить другие методы сегментации страницы, прочитайте вики-тессерат о том, как улучшить качество изображения.

pytesseract image_to_string не тянет строки, но нет ошибки

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

pytesseract image_to_string не тянет строки, но нет ошибки

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы