Библиотека Python Библиотека Pypdf не может извлечь PDF с греческими символами - PullRequest
0 голосов
/ 02 апреля 2019

Здравствуйте, я использую pyPDF2 Библиотека для извлечения текста из PDF.Когда PDF написан на английских символах, извлечение работает правильно, но когда я пытаюсь использовать pdf с греческим символом, извлечение возвращается пустым.

это функция извлечения содержимого

    returnedString = ""
    for x in range(reader.getNumPages()):
        page = reader.getPage(x)
        valueText = page.extractText()
        returnedString += valueText

    return returnedString

и это главное, где я читаю объект и читателя и вызываю вышеупомянутую функцию (getContentOfPdfPages) с читателем в качестве параметра

fileObject = open(fullPathFile, mode='rb')
reader = PyPDF2.PdfFileReader(fileObject)
globalExtractedText = getContentOfPdfPages(reader)

Я ожидаю результатов возвратафункция - это текст греческого языка pdf, но функция in возвращает пустое значение в pdf с греческими символами.

Кто-нибудь знает, почему я не могу извлечь греческие символы с помощью pyPDF2 ??

Есть предложения?

...