Я пытаюсь напечатать текст из pdf файла с помощью модуля PyPDF2, но печатаются некоторые специальные символы.
уже пробовал это решение , но, похоже, оно не работает.
код
import PyPDF2
obj = open('/home/sarthak/Documents/UNIT-4.pdf','rb')
pdfReader = PyPDF2.PdfFileReader(obj)
print(pdfReader.numPages) #printing No. of pages
pageObj = pdfReader.getPage(0)
print(pageObj.extractText().encode('ascii','ignore')) #also used 'utf-8' but doesn't work either
obj.close()
выход
17
b'\n\n\n\n!#$\n\n\n\n\n\n\n\n\n\n\n \n\n"%$\n\n\n"#\n\n\n $\n\n\n\'())(*+, -$&\n\n\n\n\n $&-\n $\n'