Question

Я реализую программу для извлечения текста из файла PDF. PDF-файл состоит из английских sh слов и японских иероглифов. Я использую PyPDF2, это то, что я пробовал

Пример:

japanese.pdf

Japan History
日本の歴史

main.py

import PyPDF2

pdfFileObj = open('japanese.pdf','rb')   

pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
num=pdfReader.numPages

for a in range(0, num):
    pageObj = pdfReader.getPage(a)         
    text=pageObj.extractText().encode('utf-8')
    print(text)

Результат

b'Japan \nHistory\n\n\n\n'

Как удалить это \ n и отобразить японские символы

Извлечение символов из японского PDF-файла в Python с использованием PyPDF2

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Извлечение символов из японского PDF-файла в Python с использованием PyPDF2

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Нет похожих вопросов