Решите код с помощью tessarct версии 3.04 - PullRequest
0 голосов
/ 05 июня 2018

Как я могу решить captcha, используя tesseract?

Я предварительно обработал изображение с помощью Imagemagick, но до сих пор мне не удалось решить эту проблему.

Ниже вы можете найти изображение, которое я использую:

enter image description here

Я использовал следующую команду в качестве включенных букв кириллицы:

tesseract output.png test -l bul+eng

1 Ответ

0 голосов
/ 13 июня 2018

Не секрет, что Tesseract не является универсальным инструментом OCR, который распознает все виды текстов и цифр.На самом деле, это не могло быть дальше от истины.Когда вы работаете с реальными документами, они сильно различаются по яркости, четкости и перспективе.В вашем случае это относительно просто, так как символы не перекрываются, а фон отчетливо отличается от фона.Итак, это хорошая новость!

Для начала я бы начал с использования библиотеки Tesseract, а не полагался на ее функциональные возможности на терминале.Я имею в виду, что все в порядке, но определенно не хватает гибкости, поскольку ограничивает вас несколькими операциями с изображениями, которые вы можете выполнять на терминале.Хотя ImageMagick предоставляет обширный инструмент для обработки изображений, из моего опыта вы, скорее всего, добьетесь лучших результатов, используя в своем коде такие библиотеки, как ImageMagick или OpenCV.

Просто, чтобы дать вам быстрыйначните с tesseract и избегайте повторений, я свяжу один из моих предыдущих ответов с похожим вопросом.Я не знаю, насколько вы знакомы с Python, но я надеюсь, что вы сможете следовать.

...