Мне нужно прочитать данные из сотен форм PDF.Эти формы имеют все поля ввода текста, формы не редактируются.Я пытался использовать Python и PyPDF2 для чтения этих форм в файл CSV (поскольку конечной целью является база данных Excel.
Я пытался использовать экспорт акробатов в качестве функции CSV, но это очень медленно, так как каждыйФорма имеет 4 встроенных изображения, которые экспортируются в виде открытого текста. У меня есть следующий код,
from PyPDF2 import PdfFileReader
infile = "FormSample.pdf"
pdf_reader = PdfFileReader(open(infile, "rb"))
with open('exportharvest.csv','w') as exportharvestcsv:
dictionary = pdf_reader.getFields(fileobj = exportharvestcsv)
textfields = pdf_reader.getFormTextFields()
dest = pdf_reader.getNamedDestinations()
print(dest)
Проблема с приведенным выше кодом заключается в следующем: команда getFields получает только ~ 4 поля цифровой подписи в форме (форма имеет ~ 300 записей.) Есть ли какой-нибудь способ проинструктировать python для просмотра всех полей? Я знаю имена полей в документе, поскольку они перечислены при экспорте в pdf.
getFormTextFields () возвращает aсловарь {}
getNamedDestination () возвращает словарь {}
Спасибо за любую помощь.