Я хочу узнать текст на хинди из изображения, используя библиотеку pytesseract .
Что я пробовал
Следующий скрипт распознает весь текст, но я не перевожу его на язык хинди. Он распознает только типично европейские / американские символы:
# -*- coding: utf-8 -*-
from PIL import Image
import pytesseract
pytesseract.pytesseract.tesseract_cmd = 'C:/Program Files (x86)/Tesseract-OCR/tesseract'
#im = Image.open("/tesserocr/hindisample.png")
#im = Image.open("C:/shubhamprojectwork/ocr/tesseract-python-master/sample1.jpg")
im = Image.open("C:/shubhamprojectwork/ocr/tesseract-python-master/hindisample.png")
text = pytesseract.image_to_string(im, lang = 'hin')
print(len(text))
import codecs
f = codecs.open('bla.txt', encoding='utf-8', mode='w')
f.write(text)
f.close()
file1 = open("bla.txt", encoding='utf-8',mode="r+")
file1.seek(0)
print ("Output of Readline function is ")
print (file1.readline())
Изображение, для которого я хотел текст, здесь
.
Это генерирует этот текст
Wfififirifilfiafiiaflmtfimfi
WWfiRWWEIB-‘E
fiafiimfiifimfiafitw
fifiéfififimfiafiamfifiw