Могу ли я использовать jTessBoxEditor для редактирования поля для LSTM в tesseract 4.x? - PullRequest
0 голосов
/ 28 апреля 2020

Здравствуйте, я новичок ie на tesseract и OCR. Я хочу использовать tesseract 4.0 для распознавания текста из файлов изображений. Однако в текущем файле обученных данных недостаточно информации, я борюсь за создание коробки. С трудом распознает текст по изображениям. Поэтому я хочу сделать новые обученные данные для моего проекта. Прежде чем я узнаю, что могу создать поле для текстовой строки в tesseract 4.x, я создал блок для каждого символа.

После того, как я сделал поле с командой lstmbox, когда я установил флажок через jTessBoxEditor для редактирования, он обнаруживает строку, но в одной строке есть несколько блоков для символа. Например, для строки «Я хочу использовать тессеракт» (я использую другой язык для своего проекта. Это только для примера) поле предназначено для всей строки, но одно поле для меня, другое для w и так далее.

Я хочу знать, что создание бокса таким способом является правильным и может изменить бокс через jTessBoxEditor для tesseract 4.x или выше (я читал на jTessBoxEditor, который он поддерживает для tesseract 3.x и 2.x). Могу ли я сделать поле для строки, но символ или это правильный путь?

Мои обученные данные так хороши для использования. Поэтому мне нужно сделать как минимум 300 изображений файлов коробок для обученных данных. Но нет информации об изменении блоков, а о создании обученных данных.

Спасибо

...