Я пытаюсь конвертировать PDF-файлы в текстовые файлы, используя библиотеки Python 3 и PyPDF2.Но PDF-файлы в основном написаны на корейском языке, поэтому, кажется, они кодируются в 'utf-8' до обработки PDF-текста.Но либо чтение PDF-файлов с помощью функции «open», либо чтение с помощью функции «codecs», похоже, совсем не помогает извлекать надлежащим образом кодированный «utf-8» текст.Есть ли у вас какие-либо идеи для извлечения текста из файлов PDF с помощью Python 3 и любых других соответствующих библиотек Python?Заранее спасибо!
(Вы можете скачать файл примера через http://dart.fss.or.kr/pdf/download/pdf.do?rcp_no=20180402005019&dcm_no=6060273)
import PyPDF2
import codecs
pdf_file = open('6060273.pdf','rb')
#pdf_file = codecs.open('6060273.pdf', 'rb', encoding='utf-8')
read_pdf = PyPDF2.PdfFileReader(pdf_file)
number_of_pages = read_pdf.getNumPages()
page = read_pdf.getPage(20)
page_content = page.extractText()
print(page_content.encode('utf-8'))