PDF, закодированный в iso-8859-1 - PullRequest
0 голосов
/ 07 апреля 2019

Как я могу прочитать текст из pdf файла, закодированного в 'iso-8859-1' в python?

Я пытаюсь преобразовать pdf в txt, используя textract в python, но с некоторыми файлами я сталкиваюсь с "unicodeDecodeError utf-8, кодек не может декодировать байт 0xe2 в позиции 11: недопустимый байт продолжения". Я думаю, что файл в кодировке ISO-8859-1.

File "/home/kanika/mypython/lib/python3.5/site-. 
packages/textract/parsers/__init__.py", line 77, in process
return parser.process(filename, encoding, **kwargs)
File "/home/kanika/mypython/lib/python3.5/site-. 
packages/textract/parsers/utils.py", line 46, in process
byte_string = self.extract(filename, **kwargs)
File "/home/kanika/mypython/lib/python3.5/site-. 
packages/textract/parsers/txt_parser.py", line 9, in extract
return stream.read()
File "/home/kanika/mypython/lib/python3.5/codecs.py", line 321, in 
decode
(result, consumed) = self._buffer_decode(data, self.errors, final)
 UnicodeDecodeError: 'utf-8' codec can't decode byte 0xe2 in position 
 11: invalid continuation byte

1 Ответ

0 голосов
/ 09 апреля 2019

Попробуй это.Это должно работать, если вы хотите использовать textract

text = textract.process("yourFile.pdf")

Здесь text будет содержать весь текст в формате PDF.

Затем вы можете записать его в новый текстовый файл, как пожелаете.

...