Я использую pytessarect (0.2.5) для чтения документов различной структуры на одной странице, а именно:
SomeText
SomeText
SomeText
SomeTextSomeTextSomeTextSomeTextSomeText
SomeText: SomeText SomeText: SomeText:
SomeText: SomeText SomeText SomeText SomeText
SomeText: SomeText
SomeText: SomeText
SomeText: SomeText
SomeText: SomeText
Я хочу, чтобы tessarect также читал данные, и до сих пор я только что нашел опцию psm (в диапазоне 0-13, наиболее рекомендуется использовать psm 4 или 6) в сообщениях с похожими проблемами ( Здесь и Здесь ). К сожалению, я попробовал все варианты для PSM и смог решить мою проблему. Я посмотрел в документации, но не смог найти другой вариант. Кто-нибудь сталкивался с подобной проблемой и успешно решил ее? Есть ли способ заставить tesseract читать изображение, несмотря на PSM?
Любая помощь высоко ценится!
Редактировать: сейчас нижняя часть читается по столбцам, что я пытаюсь предотвратить.
Edit2: добавлены команды
text = []
tess_cfg = '--psm 6 --oem 1 --hocr'
for image in images:
text= pytesseract.image_to_string(Image.open(image), lang = 'eng', config = tess_cfg)