извлечение потока из PDF в Python - PullRequest
1 голос
/ 09 января 2009

Как я могу извлечь часть этого потока (с именем BLABLABLA) из pdf-файла, в котором он находится ??

<</Contents 583 0 R/CropBox[0 0 595.22 842]/MediaBox[0 0 595.22 842]/Parent 29 0  /Resources<</ColorSpace<</CS0 563 0 R>>/ExtGState<</GS0 568 0 R>>/Font<</TT0 559 0 R/TT1 560 0 R/TT2 561 0 R/TT3 562 0 R>>/ProcSet[/PDF/Text/ImageC]/Properties<</MC0<</BLABLABLA 584 0 R>>/MC1<</SubKey 582 0 R>>>>/XObject<</Im0 578 0 R>>>>/Rotate 0/StructParents 0/Type/Page>>

Или, как в других мирах, как извлечь подраздел из потока PDF?

Я бы хотел использовать библиотеку Python (например, pyPdf или ReportLab), но даже некоторые библиотеки C / C ++ мне подходят.

Кто-нибудь может мне помочь?

1 Ответ

1 голос
/ 12 января 2009

IIUC, поток в PDF - это просто последовательность двоичных данных. Я думаю, что вы хотите извлечь часть объекта. Вы хотите стандартный объект, например, изображение или текст? Было бы намного проще привести пример кода, если бы был реальный пример.

Это может помочь вам начать:

import pyPdf
pdf = pyPdf.PdfFileReader(open("pdffile.pdf"))
list(pdf.pages) # Process all the objects.
print pdf.resolvedObjects
...