У меня проблема при использовании pypdf при поиске количества раз, когда определенное слово находится в файле PDF.
В моем коде оно находит количество раз, которое слово содержит, но только один разстраница.Таким образом, максимальное количество страниц.Слово «the» должно давать около 700, но показывает только 30 (количество страниц - 30).
import PyPDF3
import re
def read_pdf(file,string):
fils = file.split(".")
print(fils[1])
word = string
if fils[1] == "pdf":
pdfFileObj = open(file,"rb")
# open the pdf file
object = PyPDF3.PdfFileReader(file)
# get number of pages
NumPages = object.getNumPages()
# define keyterms
counter = 0
# extract text and do the search
for i in range(NumPages):
PageObj = object.getPage(i)
print("page " + str(i))
Text = PageObj.extractText()
#print(Text)
if word in Text:
print("The word is on this page")
counter += 1
print(word, "exists", counter, "times in the file")
Ребята, можете ли вы увидеть, что я сделал неправильно, и помочь мне с этим?
Спасибо:)