Я должен извлечь текст из файла PDF. Для этого я использую Python 2.7.7
PyPDF2 - это библиотека, которую я использовал для извлечения текста. Но некоторые слова объединяются, что приводит к уменьшению количества слов в списке «list_of_words».
Кроме того, я думаю, что из-за этого список r2 пуст. Что я должен сделать, чтобы этот список списка r2 не был пустым? Ниже часть кода, имеющая дело с этим:
filename ='FICC_Rpt_Click_Arrow_Save_as_PDF_thru_Browser.pdf'
pdfFileObj = open(filename,'rb')
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
num_pages = pdfReader.numPages
count = 0
text = ""
while count < num_pages:
pageObj = pdfReader.getPage(count)
count +=1
if(count>=1):
text += pageObj.extractText()
if text != "":
text = text
print("s")
text = text.encode('ascii','ignore').lower()
r2=[]
r3=[]
r4=[]
r5=[]
sett_price=[]
nr_long=[]
nr_short=[]
nr_debit=[]
nr_credit=[]
cusip=[]
list_of_words = text.split()
indices = [i for i, x in enumerate(list_of_words) if(x == "net")]
print(indices)
for i in indices:
if (list_of_words[i+5]=="net"):
r2.append(list_of_words[i+1])
r3.append(list_of_words[i+2])
Я ожидаю, что список r2 будет заполнен данными, но на самом деле список r2 пуст