Использование PyPDF2
для чтения файла pdf
с некоторыми линейными чертежами, используя код как показано ниже
from PyPDF2 import PdfFileReader
with open('temp.pdf','rb') as f:
pdf = PdfFileReader(f)
for page in pdf.pages:
print page['/Contents'].getData()
Я вижу содержимое страницы, которое выглядит следующим образом:
q 0.24 0 0 0.24 0 0 cm
/R7 gs
8.5 w
1 J
1 j
0 0 0 RG
2361 118.961 m
2361 3388.96 l
S
2361 3388.96 m
118 3388.96 l
S
...
Для меня это выглядит как PostScript с использованием псевдонимов для операторов (, пожалуйста, исправьте меня, если я ошибаюсь ).
Некоторые из этих псевдонимов, я полагаю, я могу расшифровать, например, m
, l
и S
выглядят для меня как newpath moveto
, lineto
и stroke
соответственно. Однако было бы очень полезно, если бы я мог взглянуть на определения псевдонимов (bind def
), которые, я полагаю, должны присутствовать где-то в начале файла.
Думаю, это не должно быть сложно, если вы знаете, как, но я не смог выяснить, как получить доступ к этой информации заголовка postscript с помощью PyPDF2
(несмотря на чтение документов и поиск в Интернете, включая StackOverflow).
Может кто-нибудь сказать мне? Или я совсем не на том пути?