Я запускаю этот код, чтобы найти набор слов в файле PDF. код работает, но чтобы выбрать строки, содержащие слова, мне нужно прокрутить весь вывод и записать номера строк, содержащие слова.
Я хочу, чтобы строки, содержащие слова, были напечатаны вотдельный файл. Прямо сейчас, если я ищу слово в PDF-файле, содержащем 2000 страниц. Мне нужно прокрутить 2000 строк, чтобы найти результирующие строки, содержащие слова.
# import packages
import PyPDF2
import re
# open the pdf file
object = PyPDF2.PdfFileReader("Filename.pdf")
# get number of pages
NumPages = object.getNumPages()
# define keyterms
Strings = "House|Property|street"
# extract text and do the search
for i in range(0, NumPages):
PageObj = object.getPage(i)
print("this is page " + str(i))
Text = PageObj.extractText()
# print(Text)
ResSearch = re.search(Strings, Text)
print(ResSearch)
Я ожидаю, что только результирующие строки будут сохранены в отдельном файле.