Как извлечь изображения и изображения BBox координат с помощью Python? - PullRequest
0 голосов
/ 06 февраля 2019

Я пытаюсь извлечь изображения в PDF с помощью координат BBox изображения.

Я пытался использовать библиотеку pdfrw, она идентифицирует объекты изображения, и у нее есть атрибут с именем media box, который имеет некоторые координаты, яне уверен, что это правильные координаты bbox, так как для некоторых PDF-файлов он показывает что-то вроде этого ['0', '0', '684', '864'], но изображение не начинается в начале страницы, поэтому яне думаю, что это bbox

Я пытался с помощью следующего кода, используя pdfrw

import pdfrw, os
from pdfrw import PdfReader, PdfWriter
from pdfrw.findobjs import page_per_xobj
outfn = 'extract.' + os.path.basename(path)
pages = list(page_per_xobj(PdfReader(path).pages, margin=0.5*72))
writer = PdfWriter(outfn)
writer.addpages(pages)
writer.write()

Как мне получить изображение вместе с его координатами bbox?

пример pdf: https://drive.google.com/open?id=1IVbj1b3JfmSv_BJvGUqYvAPVl3FwC2A-

...