Извлеченный текст pdfminer содержит символы CID - PullRequest
0 голосов
/ 01 февраля 2019

Я пытаюсь извлечь PDF в текстовый файл.Выходной файл довольно успешен, за исключением того, что некоторые предложения имеют такие символы, как (CID: число).Сначала я думал, что это из-за турецких персонажей, но у них все в порядке.Например, в следующем предложении

(cid: 54) u sıcaklığı

первый символ s (нижний регистр).Так что я не мог понять, почему другие "с" нормальные.Кто-нибудь может объяснить?Как я могу решить?

Вот функция, которую я использую

def pdfparser(data):
fp = open(data, 'rb')
rsrcmgr = PDFResourceManager()
retstr = io.StringIO()
codec = 'utf-8'
laparams = LAParams()
device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)
interpreter = PDFPageInterpreter(rsrcmgr, device)

for page in PDFPage.get_pages(fp):
    interpreter.process_page(page)
    data = retstr.getvalue()

print(data)
...