Question

Я пытался извлечь текст из PDF-файла, содержащего текст на хинди (деванагари), и сохранил значение в текстовом файле.

Можете ли вы помочь мне с извлечением текста на хинди из PDF, используя PyPDF2 вместо pdfminer и другие инструменты?

Это мой недавний код, который выдает ошибку:

import PyPDF2 as ppdf
import codecs

pdfobj=open('hindi.pdf',mode='rb')
    pdfread = ppdf.PdfFileReader(pdfobj)
    page=pdfread.getPage(1)
    text=page.extractText().encode('utf-8')
    print(text)

но это возвращает нежелательные значения, такие как:

204 0,*L  !*+,-./, 0(1,#.23)#*+ ,#- @'#7<1593=? @'#7< :2

PyPDF возвращает код Junk

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

PyPDF возвращает код Junk

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы