Неверный вывод PyPDF2: пропущены слова. Проблема с кодированием? - PullRequest
0 голосов
/ 13 февраля 2020

Я пытаюсь извлечь текст из некоторых файлов .pdf, используя PyPDF:

pdfFileObject = open(filepath, 'rb')
        pdfReader = PyPDF2.PdfFileReader(pdfFileObject)
        count = pdfReader.numPages
        text = ''
        for i in range(count):
            page = pdfReader.getPage(i)
            text += page.extractText()

Иногда text возвращает (почти) правильную строку (с некоторыми проблемами кодирования, как в некоторых немецких текстах, все в порядке, кроме Umlauts (äöü)), но в основном (независимо от языка) это выглядит примерно так:

'\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\nÈ\n\n'

Я не распознал ни одного шаблона в выборе (почти) правильно и совершенно неправильно проанализированных файлов. У некоторых из них есть таблицы (это худшие, это правда), но некоторые из них выглядят просто и понятно.

К сожалению, PyPDF2, кажется, единственный рабочий модуль для меня ... Делает ли это что-то делать? с кодировкой? Я бы хотел, чтобы все персонажи были правильно представлены в любом случае, хотя в данном случае это не очень важно.

Буду благодарен за любое предложение.

...