Как я могу разобрать файл PDF с Python, найти ключевые слова и сохранить эти слова в файл CSV? - PullRequest
0 голосов
/ 24 сентября 2019

Я хочу создать программу, которая просматривает PDF-файл, находит экземпляры определенных ключевых слов и сохраняет эти ключевые слова в CSV-файле.

Наиболее близким решением, которое я получил, является ответ на аналогичный вопрос, от Эммы Ю.

# import packages
import PyPDF2
import re

# open the pdf file
object = PyPDF2.PdfFileReader("test.pdf")

# get number of pages
NumPages = object.getNumPages()

# define keyterms
String = "Social"

# extract text and do the search
for i in range(0, NumPages):
    PageObj = object.getPage(i)
    print("this is page " + str(i)) 
    Text = PageObj.extractText() 
    # print(Text)
    ResSearch = re.search(String, Text)
    print(ResSearch)

Однако этот ответ позволяет мне искать только одно ключевое слово за раз, и не позволяет сохранить это ключевое слово в файл CSV, если оно было найдено хотя бы один раз в файле PDF.

Например, вот PDF-файл бюджета Онтарио на 2019 год: http://budget.ontario.ca/pdf/2019/2019-ontario-budget-en.pdf

Допустим, я хочу найти три ключевых слова: "Экономика", "Бюджет" и "Кролик".,Как я мог создать программу, которая бы анализировала pdf бюджета Онтарио и сохраняла экземпляры (в файле CSV) «Экономика», «Бюджет» и «Кролик», если эти слова были найдены в файле PDF?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...