Я извлек текстовое содержимое из многостраничного резюме в формате PDF и пытался записать это содержимое в текстовый файл, используя pyPDF2
.Но я получаю следующее сообщение об ошибке при попытке записать содержимое.
Вот мой код:
import PyPDF2
newFile = open('details.txt', 'w')
file = open("cv3.pdf", 'rb')
pdfreader = PyPDF2.PdfFileReader(file)
numPages = pdfreader.getNumPages()
print(numPages)
page_content = ""
for page_number in range(numPages):
page = pdfreader.getPage(page_number)
page_content += page.extractText()
newFile.write(page_content)
print(page_content)
file.close()
newFile.close()
Сообщение об ошибке:
Traceback(последний вызов был последним): Файл "C: /Users/HP/PycharmProjects/CVParser/pdf.py", строка 16, в файле newFile.write (page_content) "C: \ Program Files \ Python37 \ lib \ encodings \ cp1252.py ", строка 19, in encode возвращать codecs.charmap_encode (input, self.errors, encoding_table) [0] UnicodeEncodeError: кодек 'charmap' не может кодировать символ '\ u0141' в позиции 827: символ отображается на
Процесс завершен с кодом выхода 1
Этот код был успешно выполнен с файлом PDF (файл docx, преобразованный в PDF) с несколькими страницами.
Пожалуйста, помогите мне, еслилюбой знает решение.