Пользовательский словарь для Tesseract - PullRequest
10 голосов
/ 05 марта 2012

В настоящее время я работаю над проектом для Android с использованием Tesseract OCR. Я надеялся точно настроить результаты, предоставленные пользователю, добавив словарь. Согласно http://code.google.com/p/tesseract-ocr/wiki/FAQ, лучший способ сделать это -

Замените tessdata / eng.user-words вашим собственным списком слов, в том же формат - текст UTF8, одно слово в строке.

Однако в папке tessdata нет файла eng.user-words, я предполагаю, что если я просто создаю текстовый файл со своим словарем, он никогда не будет использован.

Кто-нибудь имел подобный опыт и знает, что делать? Любой совет будет большой помощью.

1 Ответ

9 голосов
/ 26 ноября 2012

, если вы используете tesseract 3 (который, я полагаю, вы используете).Вам придется пересобрать ваш файл eng.trainddata, который я намеревался полностью заменить файл word-dawg, чтобы попытаться получить лучшие результаты (т.е. слова, которые я обнаруживаю, всегда одинаковы).

you 'Когда вы скомпилируете tesseract, вам потребуются исполняемые файлы combinite_tessdata и wordlist2dawg в каталоге обучения.

  1. распакуйте все (я сделал это только для резервного копирования моего eng.word-dawg, вам также понадобитсяunicharset позже)

    . / объединение_стессдат -u eng.traineddata

  2. создать текстовый файл вашего списка слов (wordlistfile)

  3. создать eng.word-dawg

    . / Wordlist2dawg wordlistfile eng.word-dawg trainingdat_backup / .unicharset

  4. замените файл word-dawg

    . / comb_tessdata -o eng.traineddata eng.word-dawg

, который должен быть этим.

...