Экспорт метаданных PDF в CSV - PullRequest
0 голосов
/ 07 ноября 2018

Я очень плохо знаком с Python, и у меня есть этот скрипт от моего профессора, который печатает метаданные из папки, содержащей файлы PDF. Мне нужно иметь возможность экспортировать эти данные во вновь созданный файл CSV, который отображает данные в удобном для чтения формате. Я долго пытался это сделать, и я не могу понять, где / что мне нужно сделать. Я выяснил, куда импортировать модуль CSV и куда должен идти код для создания файла CSV, но это все.

Любая помощь с этим была бы фантастической,

Заранее спасибо миллион.

Вот скрипт для извлечения данных PDF.

#!/ bin/bash/ python
import csv
import os
import pyPdf
from pyPdf import PdfFileReader
print "Please enter the path containing your PDF files for analysis."
print '-' * 61
targ_dir = raw_input("Path: ")
file_names = os.listdir(targ_dir)
pdfMetadata = open('E:\CVF\Python\Python Class\PDF_metadata.csv','w')
def getPDFdata (PDFFile):
    pdf = PdfFileReader(file(PDFFile, 'rb'))
    if pdf.isEncrypted:
        pdf.decrypt('')
    metadata = pdf.getDocumentInfo()
print PDFFile
for info in metadata:
        try:
            print info+"::"+metadata[info]
        except UnicodeEncodeError:
            print "BAD CHARACTER ERROR"
    print "__________________________________________"
for item in file_names:
    getPDFdata(targ_dir+"\\"+item)
end = raw_input("Press Enter to Finish: ")

Еще раз, спасибо миллион за любую помощь в этом.

...