Не секрет, что Tesseract не является универсальным инструментом OCR, который распознает все виды текстов и цифр.На самом деле, это не могло быть дальше от истины.Когда вы работаете с реальными документами, они сильно различаются по яркости, четкости и перспективе.В вашем случае это относительно просто, так как символы не перекрываются, а фон отчетливо отличается от фона.Итак, это хорошая новость!
Для начала я бы начал с использования библиотеки Tesseract, а не полагался на ее функциональные возможности на терминале.Я имею в виду, что все в порядке, но определенно не хватает гибкости, поскольку ограничивает вас несколькими операциями с изображениями, которые вы можете выполнять на терминале.Хотя ImageMagick предоставляет обширный инструмент для обработки изображений, из моего опыта вы, скорее всего, добьетесь лучших результатов, используя в своем коде такие библиотеки, как ImageMagick или OpenCV.
Просто, чтобы дать вам быстрыйначните с tesseract и избегайте повторений, я свяжу один из моих предыдущих ответов с похожим вопросом.Я не знаю, насколько вы знакомы с Python, но я надеюсь, что вы сможете следовать.