tesseract-ocr использовать только ascii? - PullRequest
1 голос
/ 16 апреля 2010

Я использовал tesseract-ocr (в .NET), который работал хорошо. Изображения, которые я передаю, являются только ascii (A-z0-9). Могу ли я сказать, что нельзя использовать специальные символы?

Ответы [ 2 ]

0 голосов
/ 04 июля 2016

используйте опцию конфигурации tessedit_char_whitelist.

0 голосов
/ 26 мая 2010

* * * * * * * * * * * * * * * * * * * * * * По этой теме на форуме Google есть ссылка. Первый ответ заключает, что это, вероятно, невозможно.

Насколько я знаю, это правильно, если вы используете файлы языковых данных, которые поставляются с Tesseract. Однако вы можете очень легко ограничить количество выводимых символов, если вы тренируетесь на своих собственных файлах с ящиками . Это практически автоматически: если unicharset_extractor не найдет символы не ASCII в файлах блоков, вы никогда не увидите символы не ASCII в выводе.

Я был также разочарован всеми взаимодействиями и другими необычными символами в моем выводе, когда я впервые начал использовать Tesseract, и обучение на моих собственных файлах коробок решило проблему. Вы даже можете использовать Tesseract данные обучения в качестве отправной точки.

...