Как извлечь текстовые данные из многостраничного резюме в формате PDF, используя pyPDF2? - PullRequest
0 голосов
/ 20 сентября 2018

Я извлек текстовое содержимое из многостраничного резюме в формате PDF и пытался записать это содержимое в текстовый файл, используя pyPDF2.Но я получаю следующее сообщение об ошибке при попытке записать содержимое.

Вот мой код:

import PyPDF2

newFile = open('details.txt', 'w')
file = open("cv3.pdf", 'rb')

pdfreader = PyPDF2.PdfFileReader(file)
numPages = pdfreader.getNumPages()
print(numPages)

page_content = ""
for page_number in range(numPages):
    page = pdfreader.getPage(page_number)
    page_content += page.extractText()

newFile.write(page_content)
print(page_content)

file.close()
newFile.close()

Сообщение об ошибке:

Traceback(последний вызов был последним): Файл "C: /Users/HP/PycharmProjects/CVParser/pdf.py", строка 16, в файле newFile.write (page_content) "C: \ Program Files \ Python37 \ lib \ encodings \ cp1252.py ", строка 19, in encode возвращать codecs.charmap_encode (input, self.errors, encoding_table) [0] UnicodeEncodeError: кодек 'charmap' не может кодировать символ '\ u0141' в позиции 827: символ отображается на

Процесс завершен с кодом выхода 1

Этот код был успешно выполнен с файлом PDF (файл docx, преобразованный в PDF) с несколькими страницами.

Пожалуйста, помогите мне, еслилюбой знает решение.

1 Ответ

0 голосов
/ 27 сентября 2018

Это решит вашу проблему в Python 3:

with open("Output.txt", "w") as text_file:
    print("{}".format(page_content), file=text_file)

Если вышеописанное не поможет вам, попробуйте следующее:

with open("Output1.txt", "wb") as text_file:

    text_file.write(page_content.encode("UTF-8"))
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...