Как разделить вывод .extract, используемого в библиотеке очистки PDFQuery - PullRequest
0 голосов
/ 10 апреля 2019

У меня проблема с библиотекой запросов pdf.Я пытался выяснить это в последние несколько дней, но я не могу понять это.

Код:

def data_validation(x,y,x1,y1,pdf,width_scale,height_scale):

    values = pdf.extract([
        ('with_formatter', 'text'),
        ('with_parent','LTPage[pageid=\'1\']'),
        ('values', 'LTTextLineHorizontal:in_bbox("%s,%s,%s,%s")' % ((x1*width_scale), ((800-y)*height_scale), (x*width_scale), ((800-y1)*height_scale)))
    ])

    return values

Входные переменные дляфункция (data_validation) представляет собой ограничивающий прямоугольник, который охватывает два объекта (значения ограничивающего прямоугольника), но, похоже, выходные данные объединены в 1 значение (выход).

Значения ограничивающего прямоугольника:

bbox #1 - Exhibit A Sample Contract
bbox #2 - Sample Contract

Вывод:

{' values': 'Exhibit A Sample Contract Sample Contract'}

Разве выходные значения не должны быть {'values': 'Example A Образец контракта', 'Образец контракта'}, aключ с двумя значениями?

Надеюсь, кто-нибудь сможет мне помочь и подскажет, что я делаю не так.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...