При извлечении текста из pdf с использованием PyPDF2 некоторые слова из pdf объединяются, поэтому они не печатаются отдельно - PullRequest
0 голосов
/ 11 июня 2019

Я должен извлечь текст из файла PDF. Для этого я использую Python 2.7.7 PyPDF2 - это библиотека, которую я использовал для извлечения текста. Но некоторые слова объединяются, что приводит к уменьшению количества слов в списке «list_of_words». Кроме того, я думаю, что из-за этого список r2 пуст. Что я должен сделать, чтобы этот список списка r2 не был пустым? Ниже часть кода, имеющая дело с этим:

filename ='FICC_Rpt_Click_Arrow_Save_as_PDF_thru_Browser.pdf'

pdfFileObj = open(filename,'rb') 

pdfReader = PyPDF2.PdfFileReader(pdfFileObj)

num_pages = pdfReader.numPages

count = 0

text = ""

while count < num_pages: 

    pageObj = pdfReader.getPage(count)

    count +=1

    if(count>=1):
        text += pageObj.extractText()

if text != "":

    text = text

    print("s")

text = text.encode('ascii','ignore').lower()


r2=[]

r3=[]

r4=[]

r5=[]

sett_price=[]

nr_long=[]

nr_short=[]

nr_debit=[]

nr_credit=[]

cusip=[]

list_of_words = text.split()

indices = [i for i, x in enumerate(list_of_words) if(x == "net")]

print(indices)

for i in indices:

    if (list_of_words[i+5]=="net"):

        r2.append(list_of_words[i+1])

        r3.append(list_of_words[i+2])

Я ожидаю, что список r2 будет заполнен данными, но на самом деле список r2 пуст

...