Предупреждения при создании файла обученных данных из png / box: параметры не найдены -> tessedit_single_match и il1_adaption_test - PullRequest
0 голосов
/ 27 января 2020

Я пытаюсь создать новый обучающий файл с указанным c файлом test_font.traineddata из набора png / box, созданного с помощью jTessBoxEditor.

При выполнении строки:

tesseract %PATH%/test_font.test_font.exp0.png %PATH%/test_font.test_font.exp0 nobatch box.train

Я получаю предупреждающие сообщения:

Warning: Parameter not found: tessedit_single_match
Warning: Parameter not found: il1_adaption_test
Tesseract Open Source OCR Engine v5.0.0-alpha.20191030 with Leptonica
APPLY_BOXES:
   Boxes read from boxfile: 192
   Found 192 good blobs.
   Leaving 6 unlabelled blobs in 0 words.
Generated training data for 46 words

Это, кажется, не катастрофический c, потому что я все еще могу генерировать файл unicharset впоследствии. Но я хотел бы знать, откуда приходят эти предупреждения, могу ли я их исправить и каково их влияние.

После этого во время выполнения команды:

mftraining -F font_properties -U unicharset -O %PATH%/test_font.unicharset %PATH%/test_font.test_font.exp0.tr

Я получаю сообщения:

Warning: No shape table file present: shapetable
Reading %PATH%/test_font.test_font.exp0.tr ...
Flat shape table summary: Number of shapes = 60 max unichars = 1 number with multiple unichars = 0
Warning: no protos / configs for Joined in CreateIntTemplates ()
Warning: no protos / configs for | Broken | 0 | 1 in CreateIntTemplates ()
Done!

Знаете ли вы, каковы последствия этих новых предупреждений и как их исправить?

Заранее большое спасибо!

1 Ответ

0 голосов
/ 28 января 2020

Я только что понял, что эти параметры tessedit_single_match и il1_adaption_test были случайно добавлены неверной командной строкой в ​​Tesseract-OCR \ tessdata \ configs \ box.train и Tesseract-OCR \ tessdata \ configs \ lstm.train files.

Правильная структура этих файлов выглядит следующим образом:

disable_character_fragments T
file_type                   .bl
textord_fast_pitch_test T
tessedit_zero_rejection T
tessedit_minimal_rejection F
tessedit_write_rep_codes F
edges_children_fix F 
edges_childarea 0.65
edges_boxarea 0.9
tessedit_resegment_from_boxes T
tessedit_train_from_boxes T
textord_no_rejects T

И

file_type                   .bl
textord_fast_pitch_test T
tessedit_zero_rejection T
tessedit_minimal_rejection F
tessedit_write_rep_codes F
edges_children_fix F
edges_childarea 0.65
edges_boxarea 0.9
tessedit_train_line_recognizer T
textord_no_rejects T
tessedit_init_config_only T

Это, похоже, решает проблему первые проблемы с предупреждением, но не с protos / config.

...