Кто-нибудь знает, как работает Tesseract - OCR постобработка / проверка орфографии? - PullRequest
0 голосов
/ 20 января 2020

Я использовал tesseract-ocr (pytesseract) для испанского языка sh, и он достигает очень высокой точности, когда вы устанавливаете язык на испанский sh и, конечно, текст на испанском языке sh. Если вы не установите язык на испанский sh, это не поможет. Итак, я предполагаю, что tesseract использует много моделей постобработки для проверки орфографии и повышения производительности, мне было интересно, знает ли кто-нибудь из этих моделей (ie редактирование расстояния, моделирование шумных каналов), которые применяет tesseract. Заранее спасибо!

1 Ответ

0 голосов
/ 22 января 2020

Ваше предположение неверно: если вы не укажете язык, tesseract использует модель Engli sh по умолчанию для распознавания текста. Вот почему вы получили неверный результат для ввода текста Spani sh. Нет постобработки проверки орфографии.

...