Тессеракт Похоже, что вы изучаете символы, когда вы выполняете больше операций распознавания. Как сохранить данные обучения между использованиями? - PullRequest
3 голосов
/ 29 августа 2011

У меня есть определенный набор из 10 изображений для оптического распознавания текста. Они все цифры; несколько коротких, около 20 цифр на каждом изображении. Есть одно конкретное изображение, если я запустил его первым, оно будет иметь некоторые несоответствия; однако, если я сначала запускаю другие тесты, а затем возвращаюсь к этому, все символы совпадают.

Я склонен заключить, что Тессеракт изучает символы по мере выполнения большего количества операций OCR, что меня очень радует. Теперь вопрос, если это возможно, для меня, чтобы сохранить учебные данные, так что Тессеракт будет знать, чтобы забрать их в следующий раз, когда я буду их использовать?

1 Ответ

4 голосов
/ 31 августа 2011

Вы можете установить classify_save_adapted_templates на 1 в вашем конфигурационном файле Tesseract, чтобы сохранить адаптированные шаблоны, и установить classify_use_pre_adapted_templates на 1, чтобы загружать шаблоны при следующем запуске Tesseract

Код, который определяет поведение этих опций здесь: http://code.google.com/p/tesseract-ocr/source/browse/trunk/classify/classify.cpp?r=570

...