Тессеракт ничего не возвращает для арабских слов / букв - PullRequest
0 голосов
/ 19 февраля 2019

Я установил Pytesseract, и он отлично работает на французском / английском тексте, а также на цифрах.Но когда я пытаюсь прочитать любой арабский текст / письмо, он ничего не возвращает.

Вот код, который я использовал:

try:
    from PIL import Image
except ImportError:
    import Image
import pytesseract

pytesseract.pytesseract.tesseract_cmd = r"C:\Program Files (x86)\Tesseract-OCR\tesseract.exe"

print(pytesseract.image_to_string(Image.open('maroc.jpg'), lang='ara'))

Вот письмо, которое я пытаюсьпрочитайте د:

د

Если кто-то смог прочитать его другим способом, пожалуйста, помогите, спасибо!

1 Ответ

0 голосов
/ 02 мая 2019

Код:

from pytesseract import image_to_string 
from PIL import Image
import pytesseract

print(pytesseract.image_to_pdf_or_hocr('test.png', lang='ara', extension='hocr'))

Возьмите новые арабские тессдаты от здесь :

...