В этом коде:
subprocess.getoutput('./pdftotext file.pdf -')
Также я попробовал UTF-16
:
subprocess.check_output('./pdftotext file.pdf -', shell=True, encoding='utf-16')
PDF из https://mozilla.github.io/pdf.js/web/compressed.tracemonkey-pldi-09.pdf,, но я вижу ту же ошибку (с другим байтовым значением) для другого PDF.
Этот PDF от Mozilla хорошо работает с чистым Bash без Python.
Также я пробовал параметр universal_newlines=True
, например:
return subprocess.run(
'./pdftotext file.pdf -',
shell=True,
stdout=subprocess.PIPE,
universal_newlines=True
).stdout
Python 3.6 для Lambda.