PyPDF2 создает не буквенно-цифровые символы при чтении в PDF - PullRequest
0 голосов
/ 14 мая 2018

Я использую пакет PyPDF2 для чтения в файле PDF. Однако при чтении в файле PDF появляется много не буквенно-цифровых символов, которых нет в исходном файле PDF.

Например, у меня есть строки в PDF;

PDF (точное копирование и вставка):

"Год оказался более запутанным, чем ожидалось. Но это также заставляет меня все больше убеждаться в том, что значительное количество случаев было ложным. "

Python (следующий этот пример ):

import PyPDF2
pdfFileObj = open("file.pdf","rb")
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
pageObj = pdfReader.getPage(1)
pageObj.extractText()
>>> '˝e year has actually turned out to be more confusing than expected. 
 But it also leaves me increasingly convinced that a 
 \nsigni˜cant num˛ber of cases were false.'

Я понимаю "\ n" для новой строки. Все в порядке. Но почему существуют такие символы, как ˝ и ˜ и ˛ ?

Есть ли еще один аргумент, который мне нужно использовать с PyPDF2.PdfFileReader(), чтобы правильно прочитать файл без этих дополнительных символов?

Я знаю, что позже я могу использовать регулярные выражения, чтобы избавиться от этих специальных символов, но я бы предпочел читать в файле без них. Это особенно плохой случай, потому что иногда части слов заменяются этими специальными символами; в приведенном выше примере мы видим слово "The" становится ""e" , что плохо, если я хочу проанализировать этот текст и получить количество слов и т. д. Было бы хорошо, если бы специальные символы только появились в месте знаков препинания, но, похоже, они не следуют этой логике - специальные символы просто появляются в случайных местах.

В качестве альтернативы, есть ли другой пакет, который я мог бы использовать для python 3.6, который читает в файлах PDF (textract, кажется, только для python 2.x)?

1 Ответ

0 голосов
/ 14 мая 2018

Без образца PDF, который вы анализируете, трудно сказать, почему появляются нечетные символы. У меня также были проблемы с использованием PyPDF2 в Python 3.x. Я обнаружил, что PyMuPDF лучше для большинства задач, связанных с PDF. Вы можете попробовать извлечь текст , чтобы увидеть, есть ли у вас одинаковые символы во время извлечения текста.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...