Python -тессеракт не распознает простой текст - PullRequest
0 голосов
/ 13 марта 2020

Я пытаюсь получить текст с этого изображения, но тессеракт не распознает текст и выдает пустую строку. Как я могу это исправить?

image

import cv2
import pytesseract
import matplotlib.pyplot as plt

pytesseract.pytesseract.tesseract_cmd = r"C:\Program Files\Tesseract-OCR\tesseract.exe"

img = cv2.imread('ora.jpg')

img = cv2.medianBlur(img, 3)
img_hsv = cv2.cvtColor(img, cv2.COLOR_BGR2HSV)

grayImage = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
cv2.imshow("Test", grayImage)
threshold = 200
_, img_binarized = cv2.threshold(grayImage, threshold, 255, cv2.THRESH_BINARY)

plt.imshow(img_binarized, cmap='gray')
plt.show()

text = pytesseract.image_to_string(img_binarized)
print(text)

1 Ответ

0 голосов
/ 13 марта 2020

попробуйте немного изменить порог. Порог = 150 работал для меня.

...