определить чистый текст из изображения питона - PullRequest
0 голосов
/ 25 мая 2019

я использовал pytesseract для идентификации текста с картинки

pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'

тогда я использовал код ниже для идентификации текста

textImg = pytesseract.image_to_string(Image.open(imgLoc+"/"+imgName))

print(textImg)
text_file = open(imgLoc+"/"+"oriText.txt", "w")
text_file.write(textImg)
text_file.close()

это мое входное изображение

enter image description here

это изображение моего выходного текстового файла

enter image description here

есть ли способ четко определить текст по изображению

1 Ответ

1 голос
/ 25 мая 2019

Вы можете попытаться улучшить результаты, сократив набор символов и разрешив использовать только символы, допустимые на вашем конкретном языке (исключая цифры, специальные символы и т. Д.). Этот ответ поможет .

Тессерактное распознавание текста не является лучшим для определения символов на изображении.Вы можете попробовать немного обработать изображение, чтобы улучшить результаты. Это поможет

  • Убедитесь, что значение dpi / ppi выше 250, иначе результаты могут быть неточными.

Я обычно предпочитаю этот сайт www.onlineocr.net для выполнения Оптического распознавания символов, так как результаты почти всегда превосходны.Вы можете попробовать использовать их собственный API для распознавания символов (для работы требуется подключение к Интернету).Результаты, полученные с использованием этого API, намного превосходят результаты оптического распознавания текста.Так что вы можете попробовать.

...