Я пытался использовать пакет ocr tesseract в R для извлечения текста из изображения png (ниже)
Текст в основном на испанском языке. Вот мой код:
library(tesseract)
#tesseract_download("spa") #download the Spanish train data if you haven't already
spanish <- tesseract("spa")
path_string <- "factura.png"
text <- ocr(path_string, engine = spanish)
cat(text)
Но результат разочаровывает.
ném…c……
…r …
nw£ccwm … m…… u
mmm …"
pz… u—=,:4| nm;
mmmnzvgm 3134
NUM“ vmnscwm
cuaw ……er
nmcmvcn4 c…r vum
£m|unmusnm . u7m
¡…una
suma… ……
ncm u|s
m:s .
mm u7m
cmmo 1240
nmrAm au…va m m
m.
515 mu .…
…
=mmnzmo
a… rn¿a> rc.¿… ……
u7m
Rm mmm… swmks
…… mmm
m…—
Guuumwsucmm
Это плохой результат из-за низкого dpi? Можно ли улучшить это, переделав предварительную обработку?
Для каждой из этих квитанций мне действительно нужно просто извлечь строку со словом «equilibrio» и значением справа от него (в данном случае 41 760). Можно ли сказать тессеракту сосредоточиться только на определенных словах, а также вытащить цифры?