Здравствуйте, я использую pyPDF2 Библиотека для извлечения текста из PDF.Когда PDF написан на английских символах, извлечение работает правильно, но когда я пытаюсь использовать pdf с греческим символом, извлечение возвращается пустым.
это функция извлечения содержимого
returnedString = ""
for x in range(reader.getNumPages()):
page = reader.getPage(x)
valueText = page.extractText()
returnedString += valueText
return returnedString
и это главное, где я читаю объект и читателя и вызываю вышеупомянутую функцию (getContentOfPdfPages) с читателем в качестве параметра
fileObject = open(fullPathFile, mode='rb')
reader = PyPDF2.PdfFileReader(fileObject)
globalExtractedText = getContentOfPdfPages(reader)
Я ожидаю результатов возвратафункция - это текст греческого языка pdf, но функция in возвращает пустое значение в pdf с греческими символами.
Кто-нибудь знает, почему я не могу извлечь греческие символы с помощью pyPDF2 ??
Есть предложения?