Получение TypeError: ord () ожидаемая строка длиной 1, но int обнаружил ошибку - PullRequest
1 голос
/ 05 мая 2019

Код

from PyPDF2 import PdfFileReader
with open('HTTP_Book.pdf','rb') as file:
    pdf=PdfFileReader(file)
    pagedd=pdf.getPage(0)
    print(pagedd.extractText())

Этот код вызывает ошибку, показанную ниже:

TypeError: ord() expected string of length 1, but int found

Я искал в интернете и нашел это Устранение неполадок "Ошибка типа: ord () ожидаемая строка длины 1, но int найдена" но это не очень помогает. Я знаю, что является причиной этой ошибки, но не уверен, как она связана здесь?

Попытался изменить файл PDF, и он работает нормально. Тогда что не так: файл PDF или PyPDF2 не в состоянии справиться с этим? Я знаю, что этот метод не очень надежен в соответствии с документацией:

Это работает хорошо для некоторых файлов PDF, но плохо для других, в зависимости от используемого генератора

Как с этим обращаться?

Traceback:

Traceback (most recent call last):
  File "pdf_reader.py", line 71, in <module>
    print(pagedd.extractText())
  File "C:\Users\Jeet\AppData\Local\Programs\Python\Python37\lib\site-packages\PyPDF2\pdf.py", line 2595, in ex
tractText
    content = ContentStream(content, self.pdf)
  File "C:\Users\Jeet\AppData\Local\Programs\Python\Python37\lib\site-packages\PyPDF2\pdf.py", line 2673, in __
init__
    stream = BytesIO(b_(stream.getData()))
  File "C:\Users\Jeet\AppData\Local\Programs\Python\Python37\lib\site-packages\PyPDF2\generic.py", line 841, in
 getData
    decoded._data = filters.decodeStreamData(self)
  File "C:\Users\Jeet\AppData\Local\Programs\Python\Python37\lib\site-packages\PyPDF2\filters.py", line 350, in
 decodeStreamData
    data = LZWDecode.decode(data, stream.get("/DecodeParms"))
  File "C:\Users\Jeet\AppData\Local\Programs\Python\Python37\lib\site-packages\PyPDF2\filters.py", line 255, in
 decode
    return LZWDecode.decoder(data).decode()
  File "C:\Users\Jeet\AppData\Local\Programs\Python\Python37\lib\site-packages\PyPDF2\filters.py", line 228, in
 decode
    cW = self.nextCode();
  File "C:\Users\Jeet\AppData\Local\Programs\Python\Python37\lib\site-packages\PyPDF2\filters.py", line 205, in
 nextCode
    nextbits=ord(self.data[self.bytepos])
TypeError: ord() expected string of length 1, but int found

1 Ответ

0 голосов
/ 06 мая 2019

Я получил вопрос. Это всего лишь ограничение PyPDF2. Я использовал tika и BeautifulSoup для разбора и извлечения текста, все работало нормально. Хотя для этого нужно немного больше работы.

from tika import parser 
from bs4 import BeautifulSoup
raw=parser.from_file('HTTP_Book.pdf',xmlContent=True)['content']
data=BeautifulSoup(raw,'lxml')
message=data.find(class_='page') # for first page
print(message.text)
...