исключение невидимых полей из pdftk - PullRequest
1 голос
/ 21 сентября 2019

Я использую /usr/bin/pdftk filename.pdf dump_data_fields output - flatten, чтобы получить поля FDF в PDF, но, похоже, он также включает невидимые поля FDF.

https://docdro.id/nriB59b - это одностраничный PDF без каких-либоTXT, но с рядом этих невидимых полей FDF.Вывод pdftk можно увидеть в https://pastebin.com/ag6vweNP.

Как я могу исключить невидимые поля FDF?

В настоящее время я использую pdftk, но я открыт и для других инструментов.

Спасибо!

1 Ответ

1 голос
/ 23 сентября 2019

Полагаю, вам нужно проверить PDF самостоятельно, чтобы определить, является ли поле невидимым.С другой стороны, может быть очень сложно сказать , является ли поле невидимым или нет , за исключением случаев, когда флаг устанавливает это.

Например, хотя я неНе знаю, возможно ли это, но, скажем, поле находится за пределами страницы или покрыто другим контентом ... Это видимое или нет?

Кстати, вы можете использовать qpdf для проверки содержимого файла PDF.Следующая команда распакует ваш pdf-файл, чтобы сделать его читаемым человеком.

qpdf --qdf --object-streams=disable orig.pdf uncompressed-qpdf.pdf

Если вы предпочитаете представление JSON :

qpdf --json your_pdf.pdf > your_pdf.json

Если вы пойдете позжево-первых, вы можете проанализировать вывод json с помощью jq.

Затем используйте спецификацию PDF , которую вы хотите применить.Я предлагаю также эти шаги:

  • вы создаете PDF-файл с заданным видимым полем
  • другая копия этого PDF-файла, но со скрытым полем
  • распаковываете оба из ниха затем сравните их с diff.
...