Как я могу получить номер страницы для редактируемых полей, используя pdfminer шесть - PullRequest
0 голосов
/ 25 апреля 2020

Я последовал примеру из этого ответа, чтобы получить редактируемые значения полей из документа PDF:

Как извлечь поля PDF из заполненной формы в Python?

Для каждого поля я получаю структуру данных, которая выглядит следующим образом. Но список включает все поля со всех страниц. Как определить, на какой странице было каждое поле? В отладчике я попытался просмотреть элементы «AP» и «P», которые являются PDFObjRef, но ни к чему меня не привело.

'AP' = {dict: 1} {'N': <PDFObjRef:1947>}
'DA' = {bytes: 23} b'0 0 0 rg /ArialMT 10 Tf'
'F' = {int} 4
'FT' = {PSLiteral} /'Tx'
'M' = {bytes: 23} b"D:20200129121854-06'00'"
'MK' = {dict: 0} {}
'P' = {PDFObjRef} <PDFObjRef:1887>
'Rect' = {list: 4} [36.3844, 28.5617, 254.605, 55.1097]
'StructParent' = {int} 213
'Subtype' = {PSLiteral} /'Widget'
'T' = {bytes: 12} b'CustomerName'
'TU' = {bytes: 13} b'Customer Name'
'Type' = {PSLiteral} /'Annot'
'V' = {bytes: 21} b'Ball-Mart Stores, Inc.'

TIA

...