Python textract работает с полем на pdfminer - PullRequest
0 голосов
/ 30 марта 2020

Я пытаюсь конвертировать из .pdf в .txt и использую textract. Мой код:

import urllib.request as urllib2
import os
import textract
import sys

url_pdf = 'http://www.camara.gov.br/proposicoesWeb/prop_mostrarintegra?codteor=1800505'
file_from = 'my_pdf.pdf'
urllib2.urlretrieve(url_pdf, file_from)

text = textract.process(file_from, method='pdfminer', encoding='utf-8').decode()

sys.stdout = open('test.txt', 'w')
print(text)
sys.stdout.close()

Он работает просто отлично, однако он включает в себя содержимое из поля моего окончательного .txt файла, есть ли способ ограничить поле и избежать получения содержимого это в моем преобразованном файле?

...