читать метаданные pdf используя pypdf2 - PullRequest
1 голос
/ 10 июля 2019

При извлечении метаданных PDF я получил ответ как

indirectObject
{'/Title': IndirectObject(38, 0), '/Author': IndirectObject(40, 0), '/Subject': IndirectObject(41, 0), '/Producer': IndirectObject(39, 0), '/Creator': IndirectObject(42, 0), '/CreationDate': IndirectObject(43, 0), '/ModDate': IndirectObject(43, 0)}

Я пробовал pypdf2, а pdfminer.six

with open(path, 'rb') as f:
    pdf = PdfFileReader(f)
    info = pdf.getDocumentInfo()

получает ответ:

{'/Title': IndirectObject(38, 0), '/Author': IndirectObject(40, 0), '/Subject': IndirectObject(41, 0), '/Producer': IndirectObject(39, 0), '/Creator': IndirectObject(42, 0), '/CreationDate': IndirectObject(43, 0), '/ModDate': IndirectObject(43, 0)}

так попробовал pdfrw все заработало

from pdfrw import PdfReader
>>> PdfReader(<filename>).Info
...