Создание нескольких списков или словарь для сохранения объекта PDF с помощью pyPDF2? - PullRequest
0 голосов
/ 09 января 2019

У меня есть несколько файлов PDF, из которых мне нужно извлечь текст. Я использую пакет pyPDF2 для извлечения текста из каждого файла PDF. Мне нужно сохранять каждое извлечение в новую переменную списка или в словарь, чтобы я мог получить к ним доступ позже для процесса стигматизации

Пока я использовал следующий код, я запутался в создании нескольких переменных списка с помощью цикла for в моем блоке кода

new1=[]
new2=[]
for i in range(len(d[extension[4]])):
    pdfFileObj= open(mydir+'\\'+d[extension[4]][i],'rb')
    pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
    new1.append(pdfFileObj)
    new2.append(pdfReader)

PDFfile0 =[]
PDFfile1 =[]
PDFfile2 =[]
PDFfile3 =[]
PDFfile4 =[]

for j in range(5):
    for i in range(new2[j].numPages):
       pageObj = pdfReader.getPage(i)
       text = pageObj.extractText()
       PDFfile+str(j).append(text)  # here i am facing problem

, где d(extension[4]) - это pdf.

Мне нужно сохранить каждый результат в новом PDFfilen ... списке.

1 Ответ

0 голосов
/ 09 января 2019

Поместите их в список списков. Другими словами, что-то в этом роде:

new1=[]
new2=[]
for i in range(len(d[extension[4]])):
    pdfFileObj= open(mydir+'\\'+d[extension[4]][i],'rb')
    pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
    new1.append(pdfFileObj)
    new2.append(pdfReader)

NUM_LISTS = 5
PDFfiles = [[] for _ in range(NUM_LISTS)]

for j in range(NUM_LISTS):
    for i in range(new2[j].numPages):
       pageObj = pdfReader.getPage(i)
       text = pageObj.extractText()
       PDFfiles[j].append(text)  # Use index to select sublist.
...