Pytessarect / Tessarect линейный линейный вывод - PullRequest
0 голосов
/ 19 ноября 2018

Я использую pytessarect (0.2.5) для чтения документов различной структуры на одной странице, а именно:

SomeText
SomeText
SomeText

SomeTextSomeTextSomeTextSomeTextSomeText

SomeText:  SomeText  SomeText: SomeText:
SomeText:  SomeText  SomeText SomeText SomeText
SomeText:  SomeText
SomeText:  SomeText

SomeText:  SomeText
SomeText:  SomeText

Я хочу, чтобы tessarect также читал данные, и до сих пор я только что нашел опцию psm (в диапазоне 0-13, наиболее рекомендуется использовать psm 4 или 6) в сообщениях с похожими проблемами ( Здесь и Здесь ). К сожалению, я попробовал все варианты для PSM и смог решить мою проблему. Я посмотрел в документации, но не смог найти другой вариант. Кто-нибудь сталкивался с подобной проблемой и успешно решил ее? Есть ли способ заставить tesseract читать изображение, несмотря на PSM? Любая помощь высоко ценится!

Редактировать: сейчас нижняя часть читается по столбцам, что я пытаюсь предотвратить.

Edit2: добавлены команды

text = [] 
tess_cfg = '--psm 6 --oem 1 --hocr'   
for image in images:
   text= pytesseract.image_to_string(Image.open(image), lang = 'eng', config = tess_cfg)

1 Ответ

0 голосов
/ 20 ноября 2018

Я мог бы найти свою ошибку, кажется, есть разница, используете ли вы tess_cfg = '--psm 6 --oem 1 --hocr' или tess_cfg = '-psm 6 -oem 1 -hocr'. Первый, похоже, не работал должным образом.

...