Я пытаюсь извлечь данные и изображения из PDF-файла и передать их в базу данных.Я пробовал несколько библиотек / пакетов в R и Python, но до сих пор сталкиваюсь с проблемой, что я не могу связать извлеченное изображение с данными, которые его описывают.Я приложил изображение файла PDF в качестве образца, чтобы проиллюстрировать проблему.
Мне нужно, чтобы наконец-то был следующий кадр данных:
NUMBER ORDER IMAGE
09090087 345679 345679.jpg
09090087 535278 535278.jpg
И файлы 345679.jpg, который является кошкой, и 535278.jpg, который является собакой, извлеченный в какую-то папку ...
На данный момент мне удалось извлечь изображения, но я не могу понять, как связать изображение с текстовыми метками.
Мой код:
from __future__ import print_function
import fitz
import sys, time, re
checkXO = r"/Type(?= */XObject)"
checkIM = r"/Subtype(?= */Image)"
doc = fitz.open(sys.argv[1])
imgcount = 0
lenXREF = doc._getXrefLength()
for i in range(1, lenXREF):
text = doc._getObjectString(i)
isXObject = re.search(checkXO, text)
isImage = re.search(checkIM, text)
if not isXObject or not isImage:
continue
imgcount += 1
pix = fitz.Pixmap(doc, i)
if pix.n < 5:
pix.writePNG("pdfimg/img-%s.png" % (i,))
else:
pix0 = fitz.Pixmap(fitz.csRGB, pix)
pix0.writePNG("pdfimg/img-%s.png" % (i,))
pix0 = None
pix = None
ЛЮБЫЕ идеи?