Я получил ответ, я использую Tesseract с hocr
hOCR - это открытый стандарт представления данных для форматированного текста, полученного с помощью оптического распознавания символов. Определение кодирует текст, стиль, информацию о разметке, метрики достоверности распознавания и другую информацию с использованием расширяемого языка разметки в форме языка разметки гипертекста или XHTML
.
Синтаксис командной строки, такой как
tesseract someimage.jpg hocr