У меня есть несколько PDF-файлов со следующими свойствами:
Каждый PDF-файл содержит переменное количество «документов» с различным количеством страниц.
Каждая страница в «документе» имеет такой текст, как «Страница 3 из 26».
Я хочу иметь возможность автоматически идентифицировать первую и последнюю страницу каждого «документа» в PDF (Примечание: это не то же самое, что первая и последняя страницы PDF, поскольку каждый PDF может содержать несколько «документов»). ) и извлеките их в новый PDF для последующей печати и архивирования.
Я не уверен, какие инструменты я могу использовать для решения этой проблемы и какие библиотеки доступны для решения этой проблемы.
Есть какие-нибудь рекомендации? Предпочтительно бесплатно и может быть использован для создания инструмента, который будет работать в Windows.