Я реализую программу для извлечения текста из файла PDF. PDF-файл состоит из английских sh слов и японских иероглифов. Я использую PyPDF2, это то, что я пробовал
Пример:
japanese.pdf
Japan History
日本の歴史
main.py
import PyPDF2
pdfFileObj = open('japanese.pdf','rb')
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
num=pdfReader.numPages
for a in range(0, num):
pageObj = pdfReader.getPage(a)
text=pageObj.extractText().encode('utf-8')
print(text)
Результат
b'Japan \nHistory\n\n\n\n'
Как удалить это \ n и отобразить японские символы