Я пытаюсь конвертировать из .pdf
в .txt
и использую textract
. Мой код:
import urllib.request as urllib2
import os
import textract
import sys
url_pdf = 'http://www.camara.gov.br/proposicoesWeb/prop_mostrarintegra?codteor=1800505'
file_from = 'my_pdf.pdf'
urllib2.urlretrieve(url_pdf, file_from)
text = textract.process(file_from, method='pdfminer', encoding='utf-8').decode()
sys.stdout = open('test.txt', 'w')
print(text)
sys.stdout.close()
Он работает просто отлично, однако он включает в себя содержимое из поля моего окончательного .txt
файла, есть ли способ ограничить поле и избежать получения содержимого это в моем преобразованном файле?