Быстрый Python PDF для чтения метаданных - PullRequest
4 голосов
/ 10 декабря 2010

Я ищу очень быструю и легкую библиотеку Python для чтения метаданных PDF. Мне не нужны никакие возможности записи. Было бы лучше, если бы загружалась только информация метаданных, а не весь файл.

Я понимаю, что интерпретируемый язык, такой как Python, не лучший выбор для скорости, но поскольку это решение должно быть кроссплатформенным и работать с существующим приложением Python, кажется, выбора не так уж много.

Я проверил pyPdf и некоторые другие библиотеки, но в идеале я ищу что-то более легкое и быстрое, подходящее для обработки десятков тысяч файлов за один раз.

Ответы [ 4 ]

1 голос
/ 04 февраля 2017

pdfrw может читать метаданные без чтения анализа всего файла. (Отказ от ответственности: я автор pdfrw.) Например:

>>> from pdfrw import PdfReader
>>> PdfReader('pdf_reference_1-7.pdf').Info
{'/Title': '(PDF Reference, version 1.7)',
 '/CreationDate': '(D:20061017081020Z)',
 '/Producer': '(Acrobat Distiller 7.0.5 \\(Windows\\))',
 '/Creator': '(FrameMaker 7.2)',
 '/ModDate': "(D:20061118211043-02'30')",
 '/Author': '(Adobe Systems Incorporated)',
 '/Subject': '(Adobe Portable Document Format \\(PDF\\))'}
1 голос
/ 30 июня 2012

Вот кое-что, что я только что собрал , построенное поверх библиотеки Python PDFMiner. С его помощью можно извлечь как метаданные типа «Информация», так и метаданные типа XMP.

0 голосов
/ 25 июля 2014

Это немного сырой, но вы должны получить метаданные

f = open('file.pdf', 'r')
pdfdata=f.read()
metas=re.findall('<</Metadata(.*?)>>',pdfdata)
0 голосов
/ 09 апреля 2011

Вы видели этот ответ на аналогичный вопрос?Он предлагает использовать fopen и анализировать метаданные вручную.Если метаданные - это все, что вам нужно, вы можете разобрать их самостоятельно и сделать так быстро, как вам нравится.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...