Question

Я использовал tesseract-ocr (в .NET), который работал хорошо. Изображения, которые я передаю, являются только ascii (A-z0-9). Могу ли я сказать, что нельзя использовать специальные символы?

Travis Brown · Answer 1 · 26 мая 2010

* * * * * * * * * * * * * * * * * * * * * * По этой теме на форуме Google есть ссылка. Первый ответ заключает, что это, вероятно, невозможно.

Насколько я знаю, это правильно, если вы используете файлы языковых данных, которые поставляются с Tesseract. Однако вы можете очень легко ограничить количество выводимых символов, если вы тренируетесь на своих собственных файлах с ящиками . Это практически автоматически: если unicharset_extractor не найдет символы не ASCII в файлах блоков, вы никогда не увидите символы не ASCII в выводе.

Я был также разочарован всеми взаимодействиями и другими необычными символами в моем выводе, когда я впервые начал использовать Tesseract, и обучение на моих собственных файлах коробок решило проблему. Вы даже можете использовать Tesseract данные обучения в качестве отправной точки.

tesseract-ocr использовать только ascii?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

tesseract-ocr использовать только ascii?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы