PDF документ манипулирование - PullRequest
1 голос
/ 08 апреля 2009

У меня есть несколько PDF-файлов со следующими свойствами:

Каждый PDF-файл содержит переменное количество «документов» с различным количеством страниц.

Каждая страница в «документе» имеет такой текст, как «Страница 3 из 26».

Я хочу иметь возможность автоматически идентифицировать первую и последнюю страницу каждого «документа» в PDF (Примечание: это не то же самое, что первая и последняя страницы PDF, поскольку каждый PDF может содержать несколько «документов»). ) и извлеките их в новый PDF для последующей печати и архивирования.

Я не уверен, какие инструменты я могу использовать для решения этой проблемы и какие библиотеки доступны для решения этой проблемы.

Есть какие-нибудь рекомендации? Предпочтительно бесплатно и может быть использован для создания инструмента, который будет работать в Windows.

Ответы [ 3 ]

1 голос
/ 08 апреля 2009

Java имеет хорошую бесплатную библиотеку PDF. Проверьте iText .

С сайта iText:

Вы можете использовать iText для:

  • Служит PDF для браузера
  • Создание динамических документов из файлов или баз данных XML
  • Использование многих интерактивных функций PDF
  • Добавление закладок, номеров страниц, водяных знаков и т. Д.
  • Разделение, объединение и обработка страниц PDF
  • Автоматизация заполнения форм PDF
  • Добавление цифровых подписей в файл PDF
  • И многое другое ...

Поскольку это Java, не должно быть проблем с запуском в Windows или где-либо еще.

0 голосов
/ 08 апреля 2009

Мне удалось придумать ужасный взлом Unix, который будет работать:

  • используйте pdftk, чтобы распаковать и разбить на отдельные страницы
  • используйте pdftotext для преобразования каждой страницы в текст
  • написать скрипт для идентификации соответствующей строки в текстовом формате и скопировать соответствующий pdf в подкаталог [в процессе]
  • найти какой-нибудь инструмент для рекомбинации [будет исследовано, вероятно, pdftk может это сделать]

Должен работать на моей платформе Unix, но не уверен, что все эти инструменты приемлемы для среды Windows.

Один из возможных способов - использовать почтовый шлюз для получения PDF и возврата обработанного PDF, что делает его еще более уродливым.

Кто-нибудь с нативным решением для win32?

0 голосов
/ 08 апреля 2009

Вы можете попробовать использовать pdftk для распаковки PDF-файла, анализа данных, разделения и повторного сжатия.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...