Создание списка страниц из резюме и получение первой страницы - PullRequest
0 голосов
/ 04 июня 2019

Моя цель - ранжировать резюме на основе описания вакансии:

Для которого у меня есть следующая задача:

Создание списка страниц из резюме.

Учитывая несколькорезюме, я должен быть в состоянии разбить их на страницы.Резюме может быть в любом текстовом, doc, docx, pdf или html формате?

Следующая ссылка работает только для pdf и только при разрыве страницы: PyPDF2 разбить pdf на страницы

1 Ответ

0 голосов
/ 04 июня 2019

Единого решения для извлечения текста из файлов разных типов не существует. Попробуйте использовать пакет fitz для извлечения текста из pdf:

def extractTextfrompdf(resume):
    try:
        temp = fitz.open("pdf", resume)
        pageCount = temp.pageCount
        resumeText = ["".join(temp.getPageText(i) for i in range(pageCount))][0]
        return resumeText, pageCount
    except (TypeError,ValueError):
        logger.exception("Text extraction from pdf failed.")
        pass

Вы можете использовать python-docx для извлечения текста из файлов docx. Логика должна быть очень похожа.

...