У меня есть несколько файлов PDF, из которых мне нужно извлечь текст. Я использую пакет pyPDF2 для извлечения текста из каждого файла PDF. Мне нужно сохранять каждое извлечение в новую переменную списка или в словарь, чтобы я мог получить к ним доступ позже для процесса стигматизации
Пока я использовал следующий код, я запутался в создании нескольких переменных списка с помощью цикла for
в моем блоке кода
new1=[]
new2=[]
for i in range(len(d[extension[4]])):
pdfFileObj= open(mydir+'\\'+d[extension[4]][i],'rb')
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
new1.append(pdfFileObj)
new2.append(pdfReader)
PDFfile0 =[]
PDFfile1 =[]
PDFfile2 =[]
PDFfile3 =[]
PDFfile4 =[]
for j in range(5):
for i in range(new2[j].numPages):
pageObj = pdfReader.getPage(i)
text = pageObj.extractText()
PDFfile+str(j).append(text) # here i am facing problem
, где d(extension[4])
- это pdf.
Мне нужно сохранить каждый результат в новом PDFfilen ... списке.