Извлечение жирного текста из резюме (.Docx, .Doc, PDF) с использованием Python - PullRequest
0 голосов
/ 01 сентября 2018

У меня есть тысячи резюме в любом формате, например, слова с .doc, .docx и pdf.

Я хочу извлечь жирный текст из этих документов, используя библиотеку textract в python. Есть ли способ извлечь с помощью textract?

1 Ответ

0 голосов
/ 11 сентября 2018

Простым решением будет использование пакета python-docx . установить пакет используя (! pip install python-docx )

Вам нужно будет конвертировать ваши PDF-файлы в .docx. Вы можете сделать это с помощью любого онлайн-конвертера pdf в docx или использовать python .

следующие строки кодов извлекут все полужирное и курсив содержимое ваших резюме и сохранят их в словаре под названием boltalic_Dict. вы можете получить либо позже.

from docx import *

document = Document('path_to_your_files')
bolds=[]
italics=[]
for para in document.paragraphs:
    for run in para.runs:
        if run.italic :
            italics.append(run.text)
        if run.bold :
            bolds.append(run.text)

boltalic_Dict={'bold_phrases':bolds,
              'italic_phrases':italics}

Надеюсь, это поможет.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...