Я пытаюсь обучить языку, которого сейчас нет в Tesseract.Сценарий / буквы почти аналогичен используемому во вьетнамском языке.
Работа с python в Ubuntu 16.04 LTS, версия для tesseract 3.04.01 (установлена с
sudo apt install tesseract-ocr
sudo apt-get install tesseract-ocr-eng
sudo apt-get install tesseract-ocr-vie
, и работает отличнодля английского языка)
Я проверил с помощью следующей команды:
tesseract procssed_image.png stdout -l vie
Вывод на 90% правильный, за исключением некоторых символов, которые не на вьетнамском языке.
Затем я создал файл bazaar (/ usr / share / tesseract-ocr / tessdata / configs /):
load_system_dawg F
load_freq_dawg F
user_words_suffix user-words
создал текстовый файл с моим пользовательским списком слов(около 150 слов, по одному слову в каждой строке) и назвал его vie.user-words (/ usr / share / tesseract-ocr / tessdata /)
И затем запустил следующую команду:
tesseract procssed_image.png stdout -l vie bazaar
Результат был таким же.
Затем, когда я попробовал с:
tesseract procssed_image.png stdout -l vie bazaar -c tessedit_char_whitelist=abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789àâêî
tessedit_char_whitelist <- Здесь я пытаюсь поставить весь списоксимволов, присутствующих на моем языке, и других символов, присутствующих в файле изображения. </p>
Он показывает следующие ошибки, а также печатает вывод (результат такой же, как и раньше)
read_params_file: Can't open c
read_params_file: Can't open tessedit_char_whitelist=abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789àâêî
Скажите, пожалуйста, как исправить эту проблему и улучшить распознавание?Спасибо за ваше время.