Pytesseract не извлекает текст из некачественного изображения - PullRequest
0 голосов
/ 06 июня 2019

Я хочу извлечь текст из изображения:

image

Я попытался использовать приведенный ниже код для извлечения текста:

from PIL import Image
import pytesseract
img = "Offers.png"
tex = pytesseract.image_to_string(Image.open(img))
string = pytesseract.image_to_string(Image.open(img), config='--psm 6')

Я не мог извлечь текст.Переменная tex возвращает пустую строку, тогда как переменная string возвращает строку текста.

Что можно сделать, чтобы извлечь полный текст из изображения брошюры?

РЕДАКТИРОВАТЬ 1:

Поскольку ранее предоставленное изображение было низкого качества, я теперь предоставляю некоторые случайные изображения из изображений Google с относительно лучшим качеством.

новое изображение 2

новое изображение 3

Теперь, когда я пытаюсь реализовать тот же код выше для извлечения текста, я снова не могу извлечь полный текст.

РЕДАКТИРОВАТЬ 2:

img = cv2.imread('sale-banner-template-design_74379-121.jpg',0)
thesh, im_bw = cv2.threshold(img, 0, 255, cv2.THRESH_BINARY+cv2.THRESH_OTSU)

up_image = cv2.resize(img,None,fx=2,fy=3,interpolation=cv2.INTER_LINEAR)

t = pytesseract.image_to_string(up_image)

1 Ответ

0 голосов
/ 06 июня 2019

Удаление цвета, лишний ввод и масштабирование изображения.Это помогает тессеракту значительную сумму.Вы можете сделать все это с PIL и его различными модулями

...