Обратите внимание, что extractText()
по-прежнему не удается правильно извлечь текст. Из документации на extractText()
:
Это хорошо работает для некоторых файлов PDF,
но плохо для других, в зависимости от
генератор используется. Это будет
уточняется в будущем. Не полагайтесь на
порядок текста, выходящий из этого
функция, как это изменится, если это
функция сделана более сложной.
Поскольку вам нужен именно этот текст, вы можете использовать команду Linux pdftotext
.
Чтобы вызвать это с помощью Python, вы можете сделать это:
>>> import subprocess
>>> subprocess.call(['pdftotext', 'forms.pdf', 'output'])
Текст извлекается из forms.pdf
и сохраняется в output
.
Это работает в случае вашего PDF-файла и извлекает нужный текст.