Файлы текстовых ящиков Tesseract 4.0 - PullRequest
0 голосов
/ 26 ноября 2018

Я думаю, что я должен что-то здесь неправильно понять, но документация для Создание файлов коробок 4.0 гласит:

Требуемый формат для LSTM 4.0alpha по-прежнему tiff /пара файлов блоков, за исключением того, что блоки должны охватывать только текстовую строку, а не отдельные символы.

Однако затем идет ссылка на файл блока , который имеет посимвольныйполя символов, например:

T 112 4663 140 4696 0
e 140 4662 160 4686 0
s 163 4662 179 4686 0
s 182 4661 198 4686 0
e 200 4661 220 4685 0
r 221 4662 238 4685 0
a 239 4661 260 4685 0
c 261 4661 281 4685 0
t 281 4661 296 4691 0

Может кто-нибудь объяснить, почему это расхождение?

Ответы [ 2 ]

0 голосов
/ 27 марта 2019

Обучение LSTM на самом деле не нуждается в отдельных координатах символа.

Проблема возникает из-за не очень хорошей формулировки в вики Тессеракта, старого примера файла текстовой рамки и того факта, что «Несколько форматов»коробочных файлов принимаются Tesseract4 ".

Пожалуйста, смотрите # 2357 для деталей и примеров, предоставленных @ shreeshrii.

0 голосов
/ 28 ноября 2018

Есть символы табуляции (\ t), которые отмечают концы строк.Если вы прочтете эту документацию ниже, в ней будет указано только это.

T 112 4663 140 4696 0
e 140 4662 160 4686 0
s 163 4662 179 4686 0
s 182 4661 198 4686 0
e 200 4661 220 4685 0
r 221 4662 238 4685 0
a 239 4661 260 4685 0
c 261 4661 281 4685 0
t 281 4661 296 4691 0
  296 4661 311 4696 0
O 311 4661 344 4696 0
C 347 4661 377 4696 0
R 378 4661 414 4695 0
     414 4694 415 4695 0
A 110 4575 146 4609 0
b 145 4574 167 4610 0
o 171 4573 193 4598 0
u 195 4573 219 4596 0
t 220 4573 234 4603 0
     234 4602 235 4603 0
...