Обучение Tesseract для нового языка, который не существует в Tesseract - PullRequest
0 голосов
/ 28 марта 2019

Шаги, упомянутые здесь для tessercat 3.0-3.02 , не ясны, и я не смог найти какой-либо четкой документации по этому поводу:

Упоминается, что требуется следующий набор данных:

tessdata/eng.config
tessdata/eng.unicharset
tessdata/eng.unicharambigs
tessdata/eng.inttemp
tessdata/eng.pffmtable
tessdata/eng.normproto
tessdata/eng.punc-dawg
tessdata/eng.word-dawg
tessdata/eng.number-dawg
tessdata/eng.freq-dawg

Но, не объяснили, что это за форматы или какие они на самом деле?

Язык, над которым я работаю, не включен в utf-8, но есть в utf-16, хотяу него есть официальный диапазон кодовой точки Unicode.

Из того, что я понял до сих пор,

eng.word-dawg : мне нужно создать текстовый файл mylang.txt с одним словом в каждой строке.Слова будут на языке, на котором я работаю, и буквы тоже.А затем преобразовать его в файл dawg .Я предполагаю, что команда для этого

wordlist2dawg mylang.txt mylang.word-dawg

eng.number-dawg : Создать текстовый файл mylangnum.txt с числовыми символами - по одному в каждой строке(От 0 до 9).Затем преобразуйте его в mylang.number-dawg

eng.freq-dawg : тот же шаг, что и файл eng.word-dawg , нос наиболее часто встречающимися словами (например, часто встречающиеся слова могут быть получены после обработки определенного набора данных, таких как набор данных газеты), начиная с наиболее часто встречающегося слова в первой строке (не нужно указывать частоту), затем следует следующее частое слово во второй строке ии так далее.

Я не знаю об остальных 7 оставшихся файлах.

Может кто-нибудь попросит меня направить меня к лучшему учебнику, чтобы добавить новый язык в tesseract.

ИЛИ ЖЕ.Проверьте мое предположение выше и расскажите мне об оставшихся 7 файлах.И как действовать после того, как все 10 файлов.Спасибо.

Работа с python на Ubuntu 16.04 LTS, версия для tesseract 3.04.01

...