Как преобразовать PDF-файлы, закодированные в Unicode, в текст, используя Python 3 и PyPDF2 - PullRequest
0 голосов
/ 17 декабря 2018

Я пытаюсь конвертировать PDF-файлы в текстовые файлы, используя библиотеки Python 3 и PyPDF2.Но PDF-файлы в основном написаны на корейском языке, поэтому, кажется, они кодируются в 'utf-8' до обработки PDF-текста.Но либо чтение PDF-файлов с помощью функции «open», либо чтение с помощью функции «codecs», похоже, совсем не помогает извлекать надлежащим образом кодированный «utf-8» текст.Есть ли у вас какие-либо идеи для извлечения текста из файлов PDF с помощью Python 3 и любых других соответствующих библиотек Python?Заранее спасибо!

(Вы можете скачать файл примера через http://dart.fss.or.kr/pdf/download/pdf.do?rcp_no=20180402005019&dcm_no=6060273)

import PyPDF2
import codecs 

pdf_file = open('6060273.pdf','rb')
#pdf_file = codecs.open('6060273.pdf', 'rb', encoding='utf-8')

read_pdf = PyPDF2.PdfFileReader(pdf_file)
number_of_pages = read_pdf.getNumPages()
page = read_pdf.getPage(20)
page_content = page.extractText()
print(page_content.encode('utf-8'))

1 Ответ

0 голосов
/ 17 декабря 2018

Мне кажется, что ваша проблема скорее связана с источниками ваших шрифтов, установленных на вашем компьютере.Базовый пакет, который поставляется с PyPDF, не включает в себя целую вселенную UTF8 заранее из-за того, что наличие таких опций с включенной библиотекой может увеличить ее размер.Однако вы можете установить необходимые шрифты в каталоге.

...