Я использую Tesseract на Linux Mint Cinnamon для проекта распознавания рукописного ввода. По умолчанию Tesseract не очень хорошо читает почерк, поэтому я решил обучить свою собственную нейронную сеть и внедрить ее в Tesseract, но он не смог прочитать мои обученные данные.
На основании того, что я прочитал из этого выпуска:
Как использовать обученные данные с pytesseract?
Я попытался переместить мои обученные данные в /home/usr/tesseract-ocr/4.00/tessdata/, где находятся все остальные файлы .traineddata.
Мой обученный файл данных - это файл Binary (application/octet-stream)
, такой же, как файлы .traineddata, предоставленные Tesseract.
Я также включил язык в свой код, pytesseract.image_to_string(imagePath, lang = 'MyTrainedData')
, но он продолжал давать мне ошибку:
File "/home/usr/pytesseract/pytesseract.py", line 194, in run_tesseract
raise TesseractError(status_code, get_errors(error_string))
pytesseract.pytesseract.TesseractError: (1, 'Error opening data file /usr/share/tesseract-
ocr/4.00/tessdata/MyTrainedData.traineddata Please make sure the
TESSDATA_PREFIX environment variable is set to your
"tessdata" directory. Failed loading language \'MyTrainedData\'
Tesseract couldn\'t load any languages! Could not initialize
tesseract.')
Как бы я мог использовать мои обученные данные с Tesseract?
Заранее спасибо.
EDIT:
Я также пытался поместить свои обученные данные в /usr/share/tesseract-ocr/4.00/tessdata
, но это все равно не сработало. Если я удалил файл eng.traineddata
из этой папки, то язык eng
перестанет работать, но он все равно не будет правильно читать мои обученные данные.