Обучение тессеракту с новым языком, имеющим практически аналогичный сценарий с вьетнамским - PullRequest
0 голосов
/ 28 марта 2019

Я пытаюсь обучить языку, которого сейчас нет в Tesseract.Сценарий / буквы почти аналогичен используемому во вьетнамском языке.

Работа с python в Ubuntu 16.04 LTS, версия для tesseract 3.04.01 (установлена ​​с

sudo apt install tesseract-ocr
sudo apt-get install tesseract-ocr-eng
sudo apt-get install tesseract-ocr-vie

, и работает отличнодля английского языка)

Я проверил с помощью следующей команды:

tesseract procssed_image.png stdout -l vie

Вывод на 90% правильный, за исключением некоторых символов, которые не на вьетнамском языке.

Затем я создал файл bazaar (/ usr / share / tesseract-ocr / tessdata / configs /):

load_system_dawg     F
load_freq_dawg       F
user_words_suffix    user-words

создал текстовый файл с моим пользовательским списком слов(около 150 слов, по одному слову в каждой строке) и назвал его vie.user-words (/ usr / share / tesseract-ocr / tessdata /)

И затем запустил следующую команду:

tesseract procssed_image.png stdout -l vie bazaar

Результат был таким же.

Затем, когда я попробовал с:

tesseract procssed_image.png stdout -l vie bazaar -c tessedit_char_whitelist=abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789àâêî

tessedit_char_whitelist <- Здесь я пытаюсь поставить весь списоксимволов, присутствующих на моем языке, и других символов, присутствующих в файле изображения. </p>

Он показывает следующие ошибки, а также печатает вывод (результат такой же, как и раньше)

read_params_file: Can't open c
read_params_file: Can't open tessedit_char_whitelist=abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789àâêî

Скажите, пожалуйста, как исправить эту проблему и улучшить распознавание?Спасибо за ваше время.

...