Как я могу извлечь текст из текстовых полей в PDF в Python? - PullRequest
0 голосов
/ 25 мая 2018

Мне не повезло с pyPDF2 или PDFMiner.Инструменты всегда возвращают _______________ для текстовых полей, даже если они заполнены. Кто-нибудь знает, как извлечь текст из полей текстового поля?

1 Ответ

0 голосов
/ 25 мая 2018

Вам нужно извлечь текстовые поля, а не текст.Итак, вам нужно что-то вроде этого:

import sys
import six
from pdfminer.pdfparser import PDFParser
from pdfminer.pdfdocument import PDFDocument
from pdfminer.pdftypes import resolve1

fp = open("c:\\tmp\\test.pdf", "rb")

parser = PDFParser(fp)
doc = PDFDocument(parser)
fields = resolve1(doc.catalog["AcroForm"])["Fields"]
for i in fields:
    field = resolve1(i)
    name, value = field.get("T"), field.get("V")
    print ("{0}:{1}".format(name,value))
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...