Попробуйте использовать pdfreader (https://pdfreader.readthedocs.io/en/latest/tutorial.html#how -to-browse-document-pages ). В библиотеке есть модуль SimplePDFViewer, который извлекает только текст с определенной страницы PDF-документа.
Пример:
from pdfreader import SimplePDFViewer
pdf='test.pdf'
fn=open(pdf, 'rb')
viewer=SimplePDFViewer(fn)
viewer.render()
text="".join(viewer.canvas.strings)
pg_1=text
Извлекает текст со страницы 1 моего PDF-файла в строка. Вывод:
pg_1
Out[79]: ' Sequoia Mortgage Trust 2020-3 March 19, 2020
Analytical Contacts: Jay Wang, Director jay.wang@kbra.com, (646) 731-1220 Jack
Kahan, Senior Managing Director jkahan@kbra.com, (646) 731-2486 Armine
Karajyan, Associate Director akarajyan@kbra.com, (646) 731-1210 Fei Han, Associate
fhan@kbra.com, (646) 731-2342 Sequoia Mortgage Trust 2020-3 Structured Finance RMBS
New Issue Report '
Надеюсь, это поможет.