Question

Мне не повезло с pyPDF2 или PDFMiner.Инструменты всегда возвращают _______________ для текстовых полей, даже если они заполнены. Кто-нибудь знает, как извлечь текст из полей текстового поля?

A.Andruhovski · Answer 1 · 25 мая 2018

Вам нужно извлечь текстовые поля, а не текст.Итак, вам нужно что-то вроде этого:

import sys
import six
from pdfminer.pdfparser import PDFParser
from pdfminer.pdfdocument import PDFDocument
from pdfminer.pdftypes import resolve1

fp = open("c:\\tmp\\test.pdf", "rb")

parser = PDFParser(fp)
doc = PDFDocument(parser)
fields = resolve1(doc.catalog["AcroForm"])["Fields"]
for i in fields:
    field = resolve1(i)
    name, value = field.get("T"), field.get("V")
    print ("{0}:{1}".format(name,value))

Как я могу извлечь текст из текстовых полей в PDF в Python?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как я могу извлечь текст из текстовых полей в PDF в Python?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов