Извлечение символов из японского PDF-файла в Python с использованием PyPDF2 - PullRequest
1 голос
/ 29 мая 2020

Я реализую программу для извлечения текста из файла PDF. PDF-файл состоит из английских sh слов и японских иероглифов. Я использую PyPDF2, это то, что я пробовал

Пример:

japanese.pdf

Japan History
日本の歴史

main.py

import PyPDF2

pdfFileObj = open('japanese.pdf','rb')   

pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
num=pdfReader.numPages

for a in range(0, num):
    pageObj = pdfReader.getPage(a)         
    text=pageObj.extractText().encode('utf-8')
    print(text)

Результат

b'Japan \nHistory\n\n\n\n'

Как удалить это \ n и отобразить японские символы

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...