Я использую pdfminer pdf2txt.py для извлечения текста из разных PDF-файлов. Алгоритм работает очень хорошо во многих сценариях, но я получаю эту ошибку, и я не уверен, что я могу сделать, чтобы заставить работать pdfminer.
AttributeError: объект 'PDFObjRef' не имеет атрибута 'decode'
Я выполнил эту же команду для других документов, и это единственная ошибка, с которой я сталкиваюсь.
Я просто запускаю это из командной строки, поэтому нет другого кода для показа:
pdf2txt.py -t xml -F -1.0 test.pdf
Это полный вывод pdf2txt.py
<?xml version="1.0" encoding="utf-8" ?>
<pages>
Traceback (most recent call last):
File "/usr/local/bin/pdf2txt.py", line 116, in <module>
if __name__ == '__main__': sys.exit(main(sys.argv))
File "/usr/local/bin/pdf2txt.py", line 110, in main
interpreter.process_page(page)
File "/Library/Python/2.7/site-packages/pdfminer2-20151206-py2.7.egg/pdfminer/pdfinterp.py", line 834, in process_page
self.render_contents(page.resources, page.contents, ctm=ctm)
File "/Library/Python/2.7/site-packages/pdfminer2-20151206-py2.7.egg/pdfminer/pdfinterp.py", line 844, in render_contents
self.init_resources(resources)
File "/Library/Python/2.7/site-packages/pdfminer2-20151206-py2.7.egg/pdfminer/pdfinterp.py", line 350, in init_resources
self.fontmap[fontid] = self.rsrcmgr.get_font(objid, spec)
File "/Library/Python/2.7/site-packages/pdfminer2-20151206-py2.7.egg/pdfminer/pdfinterp.py", line 200, in get_font
font = self.get_font(None, subspec)
File "/Library/Python/2.7/site-packages/pdfminer2-20151206-py2.7.egg/pdfminer/pdfinterp.py", line 191, in get_font
font = PDFCIDFont(self, spec)
File "/Library/Python/2.7/site-packages/pdfminer2-20151206-py2.7.egg/pdfminer/pdffont.py", line 643, in __init__
self.cidcoding = '%s-%s' % (self.cidsysteminfo.get('Registry', b'unknown').decode("latin1"),
AttributeError: 'PDFObjRef' object has no attribute 'decode'
Любые идеи приветствуются!