Я использую библиотеку tesserocr для извлечения данных из png. Это хорошо работает для данных classi c, но у меня также есть флажки, и я не могу интерпретировать эти значения.
from PIL import Image
from tesserocr import PyTessBaseAPI, RIL, PSM, iterate_level
#image = Image.open('test.png')
with PyTessBaseAPI() as api:
api.SetImageFile('test.png')
api.SetRectangle(607, 254, 21, 24) # checkbox !
api.Recognize()
ri = api.GetIterator()
level = RIL.SYMBOL
for r in iterate_level(ri, level):
symbol = r.GetUTF8Text(level) # r == ri
conf = r.Confidence(level)
if symbol:
print(u'symbol {}, conf: {}'.format(symbol, conf), end='')
indent = False
ci = r.GetChoiceIterator()
for c in ci:
if indent:
print('\t\t ', end='')
print('\t- ', end='')
choice = c.GetUTF8Text() # c == ci
print(u'{} conf: {}'.format(choice, c.Confidence()))
indent = True
print('---------------------------------------------')
Пример части изображения
У вас есть идея, как это сделать?
У меня есть несколько флажков, вы думаете, я должен использовать файл uzn? Если да, то как мне реализовать это с этой библиотекой?
Спасибо за вашу помощь.