Сохранение строк результата, содержащих слова в отдельном файле - PullRequest
0 голосов
/ 01 ноября 2019

Я запускаю этот код, чтобы найти набор слов в файле PDF. код работает, но чтобы выбрать строки, содержащие слова, мне нужно прокрутить весь вывод и записать номера строк, содержащие слова.

Я хочу, чтобы строки, содержащие слова, были напечатаны вотдельный файл. Прямо сейчас, если я ищу слово в PDF-файле, содержащем 2000 страниц. Мне нужно прокрутить 2000 строк, чтобы найти результирующие строки, содержащие слова.

# import packages
import PyPDF2
import re

# open the pdf file
object = PyPDF2.PdfFileReader("Filename.pdf")

# get number of pages
NumPages = object.getNumPages()

# define keyterms
Strings = "House|Property|street"

# extract text and do the search
for i in range(0, NumPages):
    PageObj = object.getPage(i)
    print("this is page " + str(i)) 
    Text = PageObj.extractText() 
    # print(Text)
    ResSearch = re.search(Strings, Text)
    print(ResSearch)

Я ожидаю, что только результирующие строки будут сохранены в отдельном файле.

...