Как использовать мои собственные обученные данные с Tesseract (pytesseract)? - PullRequest
0 голосов
/ 22 апреля 2019

Я использую Tesseract на Linux Mint Cinnamon для проекта распознавания рукописного ввода. По умолчанию Tesseract не очень хорошо читает почерк, поэтому я решил обучить свою собственную нейронную сеть и внедрить ее в Tesseract, но он не смог прочитать мои обученные данные.

На основании того, что я прочитал из этого выпуска: Как использовать обученные данные с pytesseract? Я попытался переместить мои обученные данные в /home/usr/tesseract-ocr/4.00/tessdata/, где находятся все остальные файлы .traineddata. Мой обученный файл данных - это файл Binary (application/octet-stream), такой же, как файлы .traineddata, предоставленные Tesseract. Я также включил язык в свой код, pytesseract.image_to_string(imagePath, lang = 'MyTrainedData'), но он продолжал давать мне ошибку:

File "/home/usr/pytesseract/pytesseract.py", line 194, in run_tesseract
raise TesseractError(status_code, get_errors(error_string))
pytesseract.pytesseract.TesseractError: (1, 'Error opening data file /usr/share/tesseract-
ocr/4.00/tessdata/MyTrainedData.traineddata Please make sure the 
TESSDATA_PREFIX environment variable is set to your 
"tessdata" directory. Failed loading language \'MyTrainedData\' 
Tesseract couldn\'t load any languages! Could not initialize 
tesseract.')

Как бы я мог использовать мои обученные данные с Tesseract?

Заранее спасибо.

EDIT:

Я также пытался поместить свои обученные данные в /usr/share/tesseract-ocr/4.00/tessdata, но это все равно не сработало. Если я удалил файл eng.traineddata из этой папки, то язык eng перестанет работать, но он все равно не будет правильно читать мои обученные данные.

...