Question

В настоящее время я работаю над проектом для Android с использованием Tesseract OCR. Я надеялся точно настроить результаты, предоставленные пользователю, добавив словарь. Согласно http://code.google.com/p/tesseract-ocr/wiki/FAQ, лучший способ сделать это -

Замените tessdata / eng.user-words вашим собственным списком слов, в том же формат - текст UTF8, одно слово в строке.

Однако в папке tessdata нет файла eng.user-words, я предполагаю, что если я просто создаю текстовый файл со своим словарем, он никогда не будет использован.

Кто-нибудь имел подобный опыт и знает, что делать? Любой совет будет большой помощью.

roocell · Answer 1 · 26 ноября 2012

, если вы используете tesseract 3 (который, я полагаю, вы используете).Вам придется пересобрать ваш файл eng.trainddata, который я намеревался полностью заменить файл word-dawg, чтобы попытаться получить лучшие результаты (т.е. слова, которые я обнаруживаю, всегда одинаковы).

you 'Когда вы скомпилируете tesseract, вам потребуются исполняемые файлы combinite_tessdata и wordlist2dawg в каталоге обучения.

распакуйте все (я сделал это только для резервного копирования моего eng.word-dawg, вам также понадобитсяunicharset позже)

. / объединение_стессдат -u eng.traineddata
создать текстовый файл вашего списка слов (wordlistfile)
создать eng.word-dawg

. / Wordlist2dawg wordlistfile eng.word-dawg trainingdat_backup / .unicharset
замените файл word-dawg

. / comb_tessdata -o eng.traineddata eng.word-dawg

, который должен быть этим.

Пользовательский словарь для Tesseract

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пользовательский словарь для Tesseract

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы