Извлечение текста из PDF в python, когда в PDF есть изображения и таблицы - PullRequest
0 голосов
/ 15 марта 2020

Я пытаюсь извлечь текст из PDF, используя python. Я пытался использовать PyPDF2, но, похоже, он работает только в том случае, если pdf простой текстовый c текст и ничего больше. Есть ли что-нибудь еще, что может помочь мне извлечь текст из PDF-файлов?

1 Ответ

1 голос
/ 23 марта 2020

Попробуйте использовать pdfreader (https://pdfreader.readthedocs.io/en/latest/tutorial.html#how -to-browse-document-pages ). В библиотеке есть модуль SimplePDFViewer, который извлекает только текст с определенной страницы PDF-документа.

Пример:

from pdfreader import SimplePDFViewer
pdf='test.pdf'
fn=open(pdf, 'rb')
viewer=SimplePDFViewer(fn)
viewer.render()
text="".join(viewer.canvas.strings)
pg_1=text

Извлекает текст со страницы 1 моего PDF-файла в строка. Вывод:

pg_1
Out[79]: '   Sequoia Mortgage Trust 2020-3 March 19, 2020                          
Analytical Contacts:  Jay Wang, Director jay.wang@kbra.com, (646) 731-1220  Jack 
Kahan, Senior Managing Director jkahan@kbra.com, (646) 731-2486        Armine 
Karajyan, Associate Director akarajyan@kbra.com, (646) 731-1210  Fei Han, Associate  
fhan@kbra.com, (646) 731-2342 Sequoia Mortgage  Trust 2020-3 Structured Finance RMBS 
New Issue Report '

Надеюсь, это поможет.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...