Я использую пакет PyPDF2 для чтения в файле PDF. Однако при чтении в файле PDF появляется много не буквенно-цифровых символов, которых нет в исходном файле PDF.
Например, у меня есть строки в PDF;
PDF (точное копирование и вставка):
"Год оказался более запутанным, чем ожидалось. Но это также заставляет меня все больше убеждаться в том, что
значительное количество случаев было ложным. "
Python (следующий этот пример ):
import PyPDF2
pdfFileObj = open("file.pdf","rb")
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
pageObj = pdfReader.getPage(1)
pageObj.extractText()
>>> '˝e year has actually turned out to be more confusing than expected.
But it also leaves me increasingly convinced that a
\nsigni˜cant num˛ber of cases were false.'
Я понимаю "\ n" для новой строки. Все в порядке. Но почему существуют такие символы, как ˝ и ˜ и ˛ ?
Есть ли еще один аргумент, который мне нужно использовать с PyPDF2.PdfFileReader()
, чтобы правильно прочитать файл без этих дополнительных символов?
Я знаю, что позже я могу использовать регулярные выражения, чтобы избавиться от этих специальных символов, но я бы предпочел читать в файле без них. Это особенно плохой случай, потому что иногда части слов заменяются этими специальными символами; в приведенном выше примере мы видим слово "The" становится ""e" , что плохо, если я хочу проанализировать этот текст и получить количество слов и т. д. Было бы хорошо, если бы специальные символы только появились в месте знаков препинания, но, похоже, они не следуют этой логике - специальные символы просто появляются в случайных местах.
В качестве альтернативы, есть ли другой пакет, который я мог бы использовать для python 3.6, который читает в файлах PDF (textract, кажется, только для python 2.x)?