Есть ли какая-либо функция для извлечения текста с заголовком c из pdf - PullRequest
0 голосов
/ 26 мая 2020

В моем PDF-документе несколько абзацев. У каждого абзаца есть уникальный заголовок. Как я могу извлечь текст из PDF под определенным заголовком c, который я ищу

1 Ответ

1 голос
/ 26 мая 2020

вы можете использовать для этого библиотеку PyPDF2 python, примеры фрагментов:

# importing required modules
import PyPDF2

# creating a pdf file object
pdfFileObj = open('example.pdf', 'rb')

# creating a pdf reader object
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)

# printing number of pages in pdf file
print(pdfReader.numPages)

# creating a page object
pageObj = pdfReader.getPage(0)

# extracting text from page
print(pageObj.extractText())

# closing the pdf file object
pdfFileObj.close()
...