Question

Я ищу очень быструю и легкую библиотеку Python для чтения метаданных PDF. Мне не нужны никакие возможности записи. Было бы лучше, если бы загружалась только информация метаданных, а не весь файл.

Я понимаю, что интерпретируемый язык, такой как Python, не лучший выбор для скорости, но поскольку это решение должно быть кроссплатформенным и работать с существующим приложением Python, кажется, выбора не так уж много.

Я проверил pyPdf и некоторые другие библиотеки, но в идеале я ищу что-то более легкое и быстрое, подходящее для обработки десятков тысяч файлов за один раз.

Patrick Maupin · Answer 1 · 04 февраля 2017

pdfrw может читать метаданные без чтения анализа всего файла. (Отказ от ответственности: я автор pdfrw.) Например:

>>> from pdfrw import PdfReader
>>> PdfReader('pdf_reference_1-7.pdf').Info
{'/Title': '(PDF Reference, version 1.7)',
 '/CreationDate': '(D:20061017081020Z)',
 '/Producer': '(Acrobat Distiller 7.0.5 \\(Windows\\))',
 '/Creator': '(FrameMaker 7.2)',
 '/ModDate': "(D:20061118211043-02'30')",
 '/Author': '(Adobe Systems Incorporated)',
 '/Subject': '(Adobe Portable Document Format \\(PDF\\))'}

Matt Swain · Answer 2 · 30 июня 2012

Вот кое-что, что я только что собрал , построенное поверх библиотеки Python PDFMiner. С его помощью можно извлечь как метаданные типа «Информация», так и метаданные типа XMP.

Luke Rehmann · Answer 3 · 25 июля 2014

Это немного сырой, но вы должны получить метаданные

f = open('file.pdf', 'r')
pdfdata=f.read()
metas=re.findall('<</Metadata(.*?)>>',pdfdata)

alexis · Answer 4 · 09 апреля 2011

Вы видели этот ответ на аналогичный вопрос?Он предлагает использовать fopen и анализировать метаданные вручную.Если метаданные - это все, что вам нужно, вы можете разобрать их самостоятельно и сделать так быстро, как вам нравится.

Быстрый Python PDF для чтения метаданных

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Быстрый Python PDF для чтения метаданных

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов