Простым решением будет использование пакета python-docx . установить пакет используя (! pip install python-docx )
Вам нужно будет конвертировать ваши PDF-файлы в .docx. Вы можете сделать это с помощью любого онлайн-конвертера pdf в docx или использовать python .
следующие строки кодов извлекут все полужирное и курсив содержимое ваших резюме и сохранят их в словаре под названием boltalic_Dict. вы можете получить либо позже.
from docx import *
document = Document('path_to_your_files')
bolds=[]
italics=[]
for para in document.paragraphs:
for run in para.runs:
if run.italic :
italics.append(run.text)
if run.bold :
bolds.append(run.text)
boltalic_Dict={'bold_phrases':bolds,
'italic_phrases':italics}
Надеюсь, это поможет.