Я пытаюсь извлечь PDF в текстовый файл.Выходной файл довольно успешен, за исключением того, что некоторые предложения имеют такие символы, как (CID: число).Сначала я думал, что это из-за турецких персонажей, но у них все в порядке.Например, в следующем предложении
(cid: 54) u sıcaklığı
первый символ s (нижний регистр).Так что я не мог понять, почему другие "с" нормальные.Кто-нибудь может объяснить?Как я могу решить?
Вот функция, которую я использую
def pdfparser(data):
fp = open(data, 'rb')
rsrcmgr = PDFResourceManager()
retstr = io.StringIO()
codec = 'utf-8'
laparams = LAParams()
device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)
interpreter = PDFPageInterpreter(rsrcmgr, device)
for page in PDFPage.get_pages(fp):
interpreter.process_page(page)
data = retstr.getvalue()
print(data)