Я использую
leptonica-1.76.0
libjpeg 8d (libjpeg-turbo 1.5.2) : libpng 1.2.54 : libtiff 4.0.9 : zlib 1.2.11 : libopenjp2 2.3.0
Found AVX2
Found AVX
Found FMA
Found SSE
в Ubuntu 18.04 с официальными обученными данными -> chi_tra.traineddata (лучше всего) И я собираюсь обучать тессеракту с использованием файлов коробок. Однако после того, как я сгенерировал файл блока, я обнаружил, что диапазон блока (x, y, ширина, высота) совершенно неверен. Наиболее распространенным является то, что все x и width являются нулями, но правильная скорость достигает около 70%. Снимок экрана показан ниже.
скриншот файла поврежденного ящика (открыт в jTessBoxEditor)
Я не знаю, что с ним не так. Должен ли я (1) игнорировать это, просто исправить неправильные символы, (2) исправить оба символа и положение поля или (3) сделать что-то еще?
Более того, я пытался использовать --oem 0
. но я получил сообщение об ошибке: Error: Tesseract (legacy) engine requested, but components are not present in /path/to/chi_tra.traineddata!!
Тем не менее, я использую обученные данные из https://github.com/tesseract-ocr/tessdata, и там было сказано: «У них есть модели для устаревшего движка tesseract (--oem 0), а также новые LSTM нейронный net движок (--oem 1). " Что я должен сделать, чтобы решить эту проблему?
Спасибо за помощь