PyPDF2 - проблема с getFromTextFields - PullRequest
0 голосов
/ 03 июля 2018

Я пытаюсь использовать PyPDF2 для извлечения значений ввода / таблицы из файла PDF.

Документ не расплющен. Первая страница документа имеет уникальную таблицу. На следующих страницах есть похожие таблицы.

Извлечение работает хорошо для первой и последней страницы. Однако все промежуточные страницы отсутствуют.

Мои вопросы:

1) Может ли проблема быть связана с тем, что «имена» в таблицах одинаковы, и поэтому перезаписывать значения снова и снова (см. Пример вывода ниже)? Как это можно решить?

'Groove_clearance_2[0]': '0.30',
 'Coating_thickness_2[0]': '8.4',
 'Coating_thickness_3[0]': '8.1',
 'Groove_clearance_3[0]': '0.40',
 'Groove_clearance_4[0]': '0.500',
 'Coating_thickness_4[0]': '7.0',
 'Coating_thickness_5[0]': None,
 'Groove_clearance_5[0]': None,
 'Additional_Comments[0]': 'schedule for overhauling the piston',
 'Ring_5[0]': None,
 'Ring_4[0]': 'Sharp edges ',
 'Ring_3[0]': 'Sharp edges',
 'Ring_2[0]': 'Sharp edges,lost tension,carbon on surface',
 'Ring_1[0]': 'Sharp edges',
 'Running_hours_7[0]': '2840',
 'Running_hours_6[0]': '48486',
 'Running_hours_5[0]': '34485',
 'Running_hours_4[0]': '34485',
 'Running_hours_3[0]': '23469',
 'Running_hours_2[0]': '23469',

2) Я пытался разбить PDF на отдельные одностраничные PDF, но тогда никакие данные не могут быть извлечены вообще. Кажется, что тогда не может найти никаких полей формы. Любое решение этого, если 1) не может быть решено?

Заранее спасибо.

С уважением, Тим

...