Я пытаюсь извлечь изображения в PDF с помощью координат BBox изображения.
Я пытался использовать библиотеку pdfrw, она идентифицирует объекты изображения, и у нее есть атрибут с именем media box, который имеет некоторые координаты, яне уверен, что это правильные координаты bbox, так как для некоторых PDF-файлов он показывает что-то вроде этого ['0', '0', '684', '864'], но изображение не начинается в начале страницы, поэтому яне думаю, что это bbox
Я пытался с помощью следующего кода, используя pdfrw
import pdfrw, os
from pdfrw import PdfReader, PdfWriter
from pdfrw.findobjs import page_per_xobj
outfn = 'extract.' + os.path.basename(path)
pages = list(page_per_xobj(PdfReader(path).pages, margin=0.5*72))
writer = PdfWriter(outfn)
writer.addpages(pages)
writer.write()
Как мне получить изображение вместе с его координатами bbox?
пример pdf: https://drive.google.com/open?id=1IVbj1b3JfmSv_BJvGUqYvAPVl3FwC2A-