Pytesseract не может распознать сложную математическую формулу из изображения - PullRequest
0 голосов
/ 08 апреля 2020

Я использую pytesseract модуль в python, pytesseract распознает текст из изображения, но он не работает с изображениями, которые содержат сложные математические формулы, такие как under- root, вывод, интегральная математическая задача или уравнение .

код 2.py

# Import modules
from PIL import Image
import pytesseract
import cv2

# Include tesseract executable in your path
pytesseract.pytesseract.tesseract_cmd = r"C:\Program Files\Tesseract-OCR\tesseract.exe"

# Create an image object of PIL library
image = Image.open('23.jpg')

# img = cv2.imread('123.jpg')
# pass image into pytesseract module

# pytesseract is trained in many languages
image_to_text = pytesseract.image_to_string(image, lang='eng+equ')

image_to_text1 = pytesseract.image_to_string(image)

# Print the text
print(image_to_text)
# print(image_to_text1)


# workon digits

Выход:

242/33
2x

2x+3X

2X+3x=4

2x?-3x +1=0
(x-1)(x+1) =x2-1
(x+2)/((x+3)(x-4))

7-4=3
V(x/2) =3

2xx—343=6x—3 (x#3)

Jeeta =e* +e

dy 2
S=2?-3
dz ¥

dy = (a? — 3)dx

Входное изображение

1 Ответ

1 голос
/ 09 апреля 2020

Для работы с языком MATH вы должны установить соответствующий язык для tesseract. В вашем случае это «равно» от https://github.com/tesseract-ocr/tessdata/raw/3.04.00/equ.traineddata. Полный список доступных языков описан в https://tesseract-ocr.github.io/tessdoc/Data-Files

Я не знаком с установкой языка tesseract для windows. Но есть документация на https://github.com/tesseract-ocr/tesseract/wiki:

Если вы хотите использовать другой язык, загрузите соответствующие данные обучения, распакуйте их, используя 7-zip, и скопируйте. Файл с обученными данными в каталог 'tessdata', вероятно, C: \ Program Files \ Tesseract-OCR \ tessdata

И сначала попробуйте обработать ваше изображение только с помощью cli (без pyhton), потому что cli имеет полный список параметров для настройки.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...