https://stackoverflow.com/a/26673448/8845351
видел это, и теперь я застрял в записи данных, извлеченных из PDF в текстовый файл?
Пробовал pypdf2, pdftotext
Мой код:
import tempfile, subprocess
def pdf_to_string(file_object):
pdfData = file_object.read()
f=open('new_text.odt','wb')
#f.write(tempfile.NamedTemporaryFile())
# f.close()
tf = tempfile.NamedTemporaryFile()
tf.write(pdfData)
f.write(pdfData)
tf.seek(0)
outputTf = tempfile.NamedTemporaryFile()
if (len(pdfData) > 0) :
out, err = subprocess.Popen(["pdftotext", "-layout",
tf.name, outputTf.name ]).communicate()
return outputTf.read()
else :
return None
pdf_file="Invoice1.pdf"
file_object = file(pdf_file, 'rb')
print (pdf_to_string(file_object))
print(type(pdf_to_string(file_object)))
Файл, не содержащий данных после записи