Я пытался написать код, используя пакеты csv, os и PyPDF2, чтобы извлечь текст из многочисленных файлов pdf в каталоге и затем поместить данные в csv. Следующий код иллюстрирует мои усилия (он работает, но не выводит):
import PyPDF2
import csv
import os
for filename in os.listdir(os.getcwd()):
if filename endswith('.pdf'):
pdfFileobject = open(filename, 'rb')
pdfUnderstander = PyPDF2.PdfFileReader(pdfFileObject)
numberpages = pdfUnderstander.getNumPages()
increment = 0
text = ""
while increment < numberpages:
pdfPage = pdfUnderstander.getPage(increment)
increment += 1
text += pdfPage.extractText()
print(text)
Я еще не совсем дошел до этой части для csv из-за сбоя вышеприведенной части, но хотел бы получить несколько советов о том, как это можно сохранить.