R или Python: связывание извлеченных данных и изображений из PDF - PullRequest
0 голосов
/ 24 мая 2018

Я пытаюсь извлечь данные и изображения из PDF-файла и передать их в базу данных.Я пробовал несколько библиотек / пакетов в R и Python, но до сих пор сталкиваюсь с проблемой, что я не могу связать извлеченное изображение с данными, которые его описывают.Я приложил изображение файла PDF в качестве образца, чтобы проиллюстрировать проблему.enter image description here Мне нужно, чтобы наконец-то был следующий кадр данных:

NUMBER    ORDER  IMAGE
09090087  345679  345679.jpg
09090087  535278  535278.jpg

И файлы 345679.jpg, который является кошкой, и 535278.jpg, который является собакой, извлеченный в какую-то папку ...

На данный момент мне удалось извлечь изображения, но я не могу понять, как связать изображение с текстовыми метками.

Мой код:

from __future__ import print_function
import fitz
import sys, time, re

checkXO = r"/Type(?= */XObject)"       
checkIM = r"/Subtype(?= */Image)"          

doc = fitz.open(sys.argv[1])
imgcount = 0
lenXREF = doc._getXrefLength()        


for i in range(1, lenXREF):            
    text = doc._getObjectString(i)    
    isXObject = re.search(checkXO, text)    
    isImage   = re.search(checkIM, text)    
    if not isXObject or not isImage:   
        continue
    imgcount += 1
    pix = fitz.Pixmap(doc, i)          
    if pix.n < 5:                      
        pix.writePNG("pdfimg/img-%s.png" % (i,))
    else:                              
        pix0 = fitz.Pixmap(fitz.csRGB, pix)
        pix0.writePNG("pdfimg/img-%s.png" % (i,))
        pix0 = None                    
    pix = None                         

ЛЮБЫЕ идеи?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...