Чтение PDF-файла формы и возвращение заполненных координат полей и имени поля - PullRequest
0 голосов
/ 26 февраля 2020

У меня есть файл PDF, который по сути является формой. Мне нужно вернуть заполненные места; какие поля заполнить, номер их страницы и их координаты, где я могу разместить ограничительную рамку.

Я использовал различные подходы к решению проблемы, но, как оказалось, работать с PDF очень сложно.

Подробная информация о файле PDF:

from pdfrw import PdfReader
pdf = PdfReader('RED-46808(Short).pdf')
print(pdf.keys())
print(pdf.Info)
print(pdf.Root.keys())
print('PDF has {} pages'.format(len(pdf.pages)))

Что возвращает:

['/Root', '/Info', '/ID', '/Size']
{'/CreationDate': "(D:20171003184937+08'00')", '/Creator': '(Microsoft® Word 2013)', '/ModDate': '(D:20200214163844Z)', '/Producer': '(Microsoft® Word 2013)'}
['/AcroForm', '/Lang', '/MarkInfo', '/Metadata', '/Names', '/OutputIntents', '/Pages', '/StructTreeRoot', '/Type']
PDF has 5 pages

То, что я сделал до сих пор; Я могу читать страницы и заполнять форму, которая является хитом или пропуском большую часть времени, но я не хочу заполнять форму, мне просто нужно получить координаты того, где форма должна быть заполнена, и поместить ограничивающий прямоугольник в соответствующих местах.

import os
import pdfrw


INVOICE_TEMPLATE_PATH = 'RED-46808(Short).pdf'
INVOICE_OUTPUT_PATH = 'output.pdf'


ANNOT_KEY = '/Annots'
ANNOT_FIELD_KEY = '/T'
ANNOT_VAL_KEY = '/V'
ANNOT_RECT_KEY = '/Rect'
SUBTYPE_KEY = '/Subtype'
WIDGET_SUBTYPE_KEY = '/Widget'


def write_fillable_pdf(input_pdf_path, output_pdf_path, data_dict):
    template_pdf = pdfrw.PdfReader(input_pdf_path)
    annotations = template_pdf.pages[0][ANNOT_KEY]
    for annotation in annotations:
        if annotation[SUBTYPE_KEY] == WIDGET_SUBTYPE_KEY:
            if annotation[ANNOT_FIELD_KEY]:
                key = annotation[ANNOT_FIELD_KEY][1:-1]
                if key in data_dict.keys():
                    annotation.update(
                        pdfrw.PdfDict(V='{}'.format(data_dict[key]))
                    )
#     pdfrw.PdfDict(AP=data_dict[key], V=data_dict[key])
    pdfrw.PdfWriter().write(output_pdf_path, template_pdf)



data_dict = {
   'business_name_1': 'Bostata',
   'customer_name': 'company.io',
   'customer_email': 'joe@company.io',
   'invoice_number': '102394',
   'send_date': '2018-02-13',
   'due_date': '2018-03-13',
   'note_contents': 'Thank you for your business, Joe',
   'item_1': 'Data consulting services',
   'item_1_quantity': '10 hours',
   'item_1_price': '$200/hr',
   'item_1_amount': '$2000',
   'subtotal': '$2000',
   'tax': '0',
   'discounts': '0',
   'total': '$2000',
   'business_name_2': 'Bostata LLC',
   'business_email_address': 'hi@bostata.com',
   'business_phone_number': '(617) 930-4294'
}

if __name__ == '__main__':
    write_fillable_pdf(INVOICE_TEMPLATE_PATH, INVOICE_OUTPUT_PATH, data_dict)

Приведенный выше код не всегда возвращает PDF-файл, заполненный отмеченными полями, что не особенно полезно. Я не знаю, где go отсюда. Если кто-нибудь может мне помочь, потому что я исчерпал почти все ресурсы в моем распоряжении. Я новичок в работе с PDF.

1 Ответ

0 голосов
/ 26 февраля 2020

Попробуйте поработать с pdfminer, если нет! Он имеет потрясающую поддержку и множество замечательных функций.

Вы также можете попробовать использовать PyMuPDF, который может помочь вам найти текст, а также PyPDF2 для выделения материала. Это не создаст ограничивающий прямоугольник, но вы, вероятно, можете ввести какой-то текст рядом с незаполненными вкладками, например - «пустое поле», и выделить его, который будет работать несколько иначе, чем вам требуется.

I Я не уверен, что какие-либо пакеты на основе pdf в python могут создавать ограничивающие блоки.

Для создания ограничивающего прямоугольника вам, возможно, придется преобразовать pdf в изображение, определить незаполненную вкладку на изображении и затем нарисуйте ограничивающую рамку, используя пакеты, такие как OpenCV или что-то еще, что потребует много усилий, и я не уверен, будет ли этот метод всегда работать и будет осуществим в долгосрочной перспективе. И опять же, вам также нужно преобразовать это изображение обратно в PDF. Итак, это довольно длинный трубопровод.

...