Как извлечь упрощенный китайский из удаленного PDF-файла в URL с помощью Python?Вывод моих кодов оказывается пустым - PullRequest
0 голосов
/ 20 ноября 2018

Я хочу сохранить объявление компании о Listco из PDF-URL Однако выходной файл моего кода на Python оказывается пустым.

Я попытался извлечь текст из PDF напрямую, однако это упрощенный китайский, и даже utf-16 не может полностью его расшифровать.

Пожалуйста, помогите

import requests
from PyPDF2 import PdfFileReader, PdfFileWriter

url_pdf='http://static.sse.com.cn/disclosure/listedinfo/announcement/c/2018-11-15/601318_20181115_1.pdf'
r = requests.get(url_pdf)
fo = open('file_name.pdf','wb')                        
fo.write(r.content)                              
fo.close()

with open('file_name.pdf','rb') as file:
    pdf=PdfFileReader(file)
    info = pdf.getDocumentInfo()
    pages=pdf.numPages
    print(pdf.getPage(1).extractText())
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...