Я хочу создать программу, которая просматривает PDF-файл, находит экземпляры определенных ключевых слов и сохраняет эти ключевые слова в CSV-файле.
Наиболее близким решением, которое я получил, является ответ на аналогичный вопрос, от Эммы Ю.
# import packages
import PyPDF2
import re
# open the pdf file
object = PyPDF2.PdfFileReader("test.pdf")
# get number of pages
NumPages = object.getNumPages()
# define keyterms
String = "Social"
# extract text and do the search
for i in range(0, NumPages):
PageObj = object.getPage(i)
print("this is page " + str(i))
Text = PageObj.extractText()
# print(Text)
ResSearch = re.search(String, Text)
print(ResSearch)
Однако этот ответ позволяет мне искать только одно ключевое слово за раз, и не позволяет сохранить это ключевое слово в файл CSV, если оно было найдено хотя бы один раз в файле PDF.
Например, вот PDF-файл бюджета Онтарио на 2019 год: http://budget.ontario.ca/pdf/2019/2019-ontario-budget-en.pdf
Допустим, я хочу найти три ключевых слова: "Экономика", "Бюджет" и "Кролик".,Как я мог создать программу, которая бы анализировала pdf бюджета Онтарио и сохраняла экземпляры (в файле CSV) «Экономика», «Бюджет» и «Кролик», если эти слова были найдены в файле PDF?