Question

У меня есть несколько PDF-файлов со следующими свойствами:

Каждый PDF-файл содержит переменное количество «документов» с различным количеством страниц.

Каждая страница в «документе» имеет такой текст, как «Страница 3 из 26».

Я хочу иметь возможность автоматически идентифицировать первую и последнюю страницу каждого «документа» в PDF (Примечание: это не то же самое, что первая и последняя страницы PDF, поскольку каждый PDF может содержать несколько «документов»). ) и извлеките их в новый PDF для последующей печати и архивирования.

Я не уверен, какие инструменты я могу использовать для решения этой проблемы и какие библиотеки доступны для решения этой проблемы.

Есть какие-нибудь рекомендации? Предпочтительно бесплатно и может быть использован для создания инструмента, который будет работать в Windows.

Steve K · Answer 1 · 08 апреля 2009

Java имеет хорошую бесплатную библиотеку PDF. Проверьте iText .

С сайта iText:

Вы можете использовать iText для:

Служит PDF для браузера
Создание динамических документов из файлов или баз данных XML
Использование многих интерактивных функций PDF
Добавление закладок, номеров страниц, водяных знаков и т. Д.
Разделение, объединение и обработка страниц PDF
Автоматизация заполнения форм PDF
Добавление цифровых подписей в файл PDF
И многое другое ...

Поскольку это Java, не должно быть проблем с запуском в Windows или где-либо еще.

Miguel A. Friginal · Answer 2 · 08 апреля 2009

Мне удалось придумать ужасный взлом Unix, который будет работать:

используйте pdftk, чтобы распаковать и разбить на отдельные страницы
используйте pdftotext для преобразования каждой страницы в текст
написать скрипт для идентификации соответствующей строки в текстовом формате и скопировать соответствующий pdf в подкаталог [в процессе]
найти какой-нибудь инструмент для рекомбинации [будет исследовано, вероятно, pdftk может это сделать]

Должен работать на моей платформе Unix, но не уверен, что все эти инструменты приемлемы для среды Windows.

Один из возможных способов - использовать почтовый шлюз для получения PDF и возврата обработанного PDF, что делает его еще более уродливым.

Кто-нибудь с нативным решением для win32?

Adam Rosenfield · Answer 3 · 08 апреля 2009

Вы можете попробовать использовать pdftk для распаковки PDF-файла, анализа данных, разделения и повторного сжатия.

PDF документ манипулирование

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

PDF документ манипулирование

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы