Зависимость точности Tesseract OCR от количества текста на изображении - PullRequest
1 голос
/ 27 февраля 2020

Я пытаюсь сделать OCR для очень сложных отсканированных изображений таблицы. Поскольку таблицы являются сложными, я разделю таблицы на несколько простых в определении таблиц макета, чтобы продолжить. Одна вещь, которую я заметил, если я ввожу только небольшой мусор, содержащий одну строку изображения, точность Тессеракта составляет 100%. Но для всей картины он даже не обнаруживает некоторые из тех, которые были обнаружены со 100% точностью как единственные. Мой вопрос о том, почему Tesseract ведет себя так, и какие возможные решения этой проблемы?

...