Распознавание текста по повернутым и пересекающимся символам из изображений - PullRequest
3 голосов
/ 19 февраля 2020

Я пишу код для распознавания слов и букв из изображений, используя Tesseract-OCR и OpenCV, но он подходит только для плоских букв и слов. Вопрос в том, как улучшить этот код, чтобы он мог распознавать повернутые и пересекающиеся символы и слова? Мой код:

import pytesseract
from PIL import Image
import warnings
import cv2
import os

warnings.simplefilter('ignore', Image.DecompressionBombWarning)

image=r"C:\Users\name\Desktop\image.png"
preprocess = "thresh"

c = cv2.imread(image)
gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)

filename = "ImageT.png".format(os.getpid())
cv2.imwrite(filename, gray)

pytesseract.pytesseract.tesseract_cmd=r"C:\Users\name\Desktop\Tesseract-OCR\tesseract.exe"

text=pytesseract.image_to_string(Image.open(filename))
print(text)

и некоторые картинки:

Слова

Words

Символы

Symbols

...