Могу ли я извлечь определенные слова из этого изображения, используя пакет tesseract ocr в R? - PullRequest
0 голосов
/ 28 августа 2018

Я пытался использовать пакет ocr tesseract в R для извлечения текста из изображения png (ниже)

png image

Текст в основном на испанском языке. Вот мой код:

library(tesseract)
#tesseract_download("spa") #download the Spanish train data if you haven't already
spanish <- tesseract("spa")
path_string <- "factura.png"
text <- ocr(path_string, engine = spanish)
cat(text)

Но результат разочаровывает.

ném…c……
…r …
nw£ccwm … m…… u
mmm …"
pz… u—=,:4| nm;
mmmnzvgm 3134
NUM“ vmnscwm
cuaw ……er
nmcmvcn4 c…r vum
£m|unmusnm . u7m
¡…una
suma… ……
ncm u|s
m:s .
mm u7m
cmmo 1240
nmrAm au…va m m
m.
515 mu .…
…
=mmnzmo
a… rn¿a> rc.¿… ……
u7m
Rm mmm… swmks
…… mmm
m…—
Guuumwsucmm

Это плохой результат из-за низкого dpi? Можно ли улучшить это, переделав предварительную обработку?

Для каждой из этих квитанций мне действительно нужно просто извлечь строку со словом «equilibrio» и значением справа от него (в данном случае 41 760). Можно ли сказать тессеракту сосредоточиться только на определенных словах, а также вытащить цифры?

...