Мой тессеракт сгенерировал совершенно неправильный файл ящика (неправильные позиции), но получил много правильных ответов - PullRequest
0 голосов
/ 19 февраля 2020

Я использую

 leptonica-1.76.0
  libjpeg 8d (libjpeg-turbo 1.5.2) : libpng 1.2.54 : libtiff 4.0.9 : zlib 1.2.11 : libopenjp2 2.3.0
 Found AVX2
 Found AVX
 Found FMA
 Found SSE

в Ubuntu 18.04 с официальными обученными данными -> chi_tra.traineddata (лучше всего) И я собираюсь обучать тессеракту с использованием файлов коробок. Однако после того, как я сгенерировал файл блока, я обнаружил, что диапазон блока (x, y, ширина, высота) совершенно неверен. Наиболее распространенным является то, что все x и width являются нулями, но правильная скорость достигает около 70%. Снимок экрана показан ниже.

скриншот файла поврежденного ящика (открыт в jTessBoxEditor)

Я не знаю, что с ним не так. Должен ли я (1) игнорировать это, просто исправить неправильные символы, (2) исправить оба символа и положение поля или (3) сделать что-то еще?

Более того, я пытался использовать --oem 0. но я получил сообщение об ошибке: Error: Tesseract (legacy) engine requested, but components are not present in /path/to/chi_tra.traineddata!! Тем не менее, я использую обученные данные из https://github.com/tesseract-ocr/tessdata, и там было сказано: «У них есть модели для устаревшего движка tesseract (--oem 0), а также новые LSTM нейронный net движок (--oem 1). " Что я должен сделать, чтобы решить эту проблему?

Спасибо за помощь

...