Сохранить содержимое PDF в текстовый файл - PullRequest
0 голосов
/ 20 июня 2019

https://stackoverflow.com/a/26673448/8845351 видел это, и теперь я застрял в записи данных, извлеченных из PDF в текстовый файл? Пробовал pypdf2, pdftotext

Мой код:

  import tempfile, subprocess
  def pdf_to_string(file_object):
      pdfData = file_object.read()
      f=open('new_text.odt','wb')
      #f.write(tempfile.NamedTemporaryFile())
      # f.close()
      tf = tempfile.NamedTemporaryFile()
      tf.write(pdfData)
      f.write(pdfData)
      tf.seek(0)
      outputTf = tempfile.NamedTemporaryFile()
      if (len(pdfData) > 0) :
          out, err = subprocess.Popen(["pdftotext", "-layout", 
                       tf.name, outputTf.name ]).communicate()
          return outputTf.read()
      else :
          return None

  pdf_file="Invoice1.pdf"
  file_object = file(pdf_file, 'rb')
  print (pdf_to_string(file_object))
  print(type(pdf_to_string(file_object)))

Файл, не содержащий данных после записи

...