Я использовал tesseract-ocr (pytesseract) для испанского языка sh, и он достигает очень высокой точности, когда вы устанавливаете язык на испанский sh и, конечно, текст на испанском языке sh. Если вы не установите язык на испанский sh, это не поможет. Итак, я предполагаю, что tesseract использует много моделей постобработки для проверки орфографии и повышения производительности, мне было интересно, знает ли кто-нибудь из этих моделей (ie редактирование расстояния, моделирование шумных каналов), которые применяет tesseract. Заранее спасибо!