Специальные символы печатаются при попытке печати текста из файла PDF? - PullRequest
0 голосов
/ 24 февраля 2020

Я пытаюсь напечатать текст из pdf файла с помощью модуля PyPDF2, но печатаются некоторые специальные символы.
уже пробовал это решение , но, похоже, оно не работает.
код

import PyPDF2

obj = open('/home/sarthak/Documents/UNIT-4.pdf','rb')

pdfReader = PyPDF2.PdfFileReader(obj)

print(pdfReader.numPages)   #printing No. of pages

pageObj = pdfReader.getPage(0)

print(pageObj.extractText().encode('ascii','ignore'))    #also used 'utf-8' but doesn't work either

obj.close()

выход

17
b'\n\n\n\n!#$\n\n\n\n\n\n\n\n\n\n\n  \n\n"%$\n\n\n"#\n\n\n $\n\n\n\'())(*+, -$&\n\n\n\n\n $&-\n $\n'

1 Ответ

0 голосов
/ 24 февраля 2020

Для удаления / nu можно передать результат в текстовом формате.

import textacy
data=textacy.preprocess.remove_punct(section, marks='\n'))
print(data)

, где section - извлеченные данные

для установки текстового сообщения pip install textacy

...