Question

Я использовал tesseract-ocr (pytesseract) для испанского языка sh, и он достигает очень высокой точности, когда вы устанавливаете язык на испанский sh и, конечно, текст на испанском языке sh. Если вы не установите язык на испанский sh, это не поможет. Итак, я предполагаю, что tesseract использует много моделей постобработки для проверки орфографии и повышения производительности, мне было интересно, знает ли кто-нибудь из этих моделей (ie редактирование расстояния, моделирование шумных каналов), которые применяет tesseract. Заранее спасибо!

user898678 · Answer 1 · 22 января 2020

Ваше предположение неверно: если вы не укажете язык, tesseract использует модель Engli sh по умолчанию для распознавания текста. Вот почему вы получили неверный результат для ввода текста Spani sh. Нет постобработки проверки орфографии.

Кто-нибудь знает, как работает Tesseract - OCR постобработка / проверка орфографии?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Кто-нибудь знает, как работает Tesseract - OCR постобработка / проверка орфографии?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы