msgstr "не удалось загрузить словари lstm-speci c для lang" tesseract 4.1 - PullRequest
0 голосов
/ 29 января 2020

Я пытался обучить tesseract 4.1 с использованием проекта OCRD, но после завершения обучения я скопировал данные lang.traineddata, но получил ошибку выше. Страница tesseractWiki очень сбивает с толку, чтобы понять, что нужно использовать comb_lang_model после создания файла lstmf. Так что на самом деле у меня есть файл lstmf. Я создал эти файлы с помощью пары tif / box. Пожалуйста, помогите мне для дальнейшего шага.

1 Ответ

0 голосов
/ 25 апреля 2020

Связанные обсуждения: Не удалось загрузить любые lstm-специфицированные c словари для lang xxx

Допустим, ваша папка обучения выглядит так:

OCRD/makefile
OCRD/data/foo-ground-truth.

Вы можете попробуйте выполнить следующие шаги:

  1. Найдите WORDLIST_FILE / NUMBERS_FILE / PUNC_FILE в файле makefile и измените их на:

    WORDLIST_FILE: = data / $ (MODEL_NAME) .wordlist NUMBERS_FILE: = data / $ (MODEL_NAME) .numbers PUNC_FILE: = data / $ (MODEL_NAME) .pun c

  2. Предположим, ваши базовые обученные данные - eng.traineddata.

2.1 Загрузите файлы .wordlist / .numbers / .pun c из langdata_lstm .

2.2 Поместите их в OCRD / data

2.3 если MODEL_NAME = foo, переименуйте их в: foo.wordlist, foo.numbers, foo.pun c

если у вас нет базовых обученных данных, вы можете попробовать это тоже. Но если ваша базовая обученная информация - afr, вам следует скачать файлы с langdata_lstm / afr.

повторить обучение

Причина этой ошибки: в OCRD путь по умолчанию для трех указанных выше файлов равен $ (OUTPUT_DIR) = data / $ (MODEL_NAME), и все файлы в этом пути автоматически генерируются в процессе обучения.

Если переменная START_MODEL не назначена, make-файл не будет создавать никаких связанных файлов по этому пути;

Если переменная START_MODEL была назначена, foo.lstm-number-dawg 、 foo.lstm-pun c -dawg 、 foo.lstm-word-dawg и т. д. будут получены в data / $ (MODEL_NAME). Но они не правильные. Так что в OCRD может быть ошибка.

...