Шаги, упомянутые здесь для tessercat 3.0-3.02 , не ясны, и я не смог найти какой-либо четкой документации по этому поводу:
Упоминается, что требуется следующий набор данных:
tessdata/eng.config
tessdata/eng.unicharset
tessdata/eng.unicharambigs
tessdata/eng.inttemp
tessdata/eng.pffmtable
tessdata/eng.normproto
tessdata/eng.punc-dawg
tessdata/eng.word-dawg
tessdata/eng.number-dawg
tessdata/eng.freq-dawg
Но, не объяснили, что это за форматы или какие они на самом деле?
Язык, над которым я работаю, не включен в utf-8, но есть в utf-16, хотяу него есть официальный диапазон кодовой точки Unicode.
Из того, что я понял до сих пор,
eng.word-dawg : мне нужно создать текстовый файл mylang.txt с одним словом в каждой строке.Слова будут на языке, на котором я работаю, и буквы тоже.А затем преобразовать его в файл dawg .Я предполагаю, что команда для этого
wordlist2dawg mylang.txt mylang.word-dawg
eng.number-dawg : Создать текстовый файл mylangnum.txt с числовыми символами - по одному в каждой строке(От 0 до 9).Затем преобразуйте его в mylang.number-dawg
eng.freq-dawg : тот же шаг, что и файл eng.word-dawg , нос наиболее часто встречающимися словами (например, часто встречающиеся слова могут быть получены после обработки определенного набора данных, таких как набор данных газеты), начиная с наиболее часто встречающегося слова в первой строке (не нужно указывать частоту), затем следует следующее частое слово во второй строке ии так далее.
Я не знаю об остальных 7 оставшихся файлах.
Может кто-нибудь попросит меня направить меня к лучшему учебнику, чтобы добавить новый язык в tesseract.
ИЛИ ЖЕ.Проверьте мое предположение выше и расскажите мне об оставшихся 7 файлах.И как действовать после того, как все 10 файлов.Спасибо.
Работа с python на Ubuntu 16.04 LTS, версия для tesseract 3.04.01