Как распознать галочки с помощью Tesserocr? - PullRequest
0 голосов
/ 26 апреля 2020

Я использую библиотеку tesserocr для извлечения данных из png. Это хорошо работает для данных classi c, но у меня также есть флажки, и я не могу интерпретировать эти значения.

from PIL import Image
from tesserocr import PyTessBaseAPI, RIL, PSM, iterate_level

#image = Image.open('test.png')
with PyTessBaseAPI() as api:
    api.SetImageFile('test.png')
    api.SetRectangle(607, 254, 21, 24) # checkbox !
    api.Recognize()

    ri = api.GetIterator()
    level = RIL.SYMBOL
    for r in iterate_level(ri, level):
        symbol = r.GetUTF8Text(level)  # r == ri
        conf = r.Confidence(level)
        if symbol:
            print(u'symbol {}, conf: {}'.format(symbol, conf), end='')
        indent = False
        ci = r.GetChoiceIterator()
        for c in ci:
            if indent:
                print('\t\t ', end='')
            print('\t- ', end='')
            choice = c.GetUTF8Text()  # c == ci
            print(u'{} conf: {}'.format(choice, c.Confidence()))
            indent = True
        print('---------------------------------------------')

Пример части изображения

У вас есть идея, как это сделать?

У меня есть несколько флажков, вы думаете, я должен использовать файл uzn? Если да, то как мне реализовать это с этой библиотекой?

Спасибо за вашу помощь.

...