Я ищу умный способ интеллектуального разделения PDF-файлов по заранее определенному маркеру, то есть с помощью QR-кода со штампом.
Настройка: Бумажные счета сканируются и преобразуются в файлы PDF. Счет может быть от 1 до 3 страниц. Все они совершенно разные по содержанию, структуре и т. Д. c.
Перед сканированием я бы применял один и тот же маленький QR-код к каждой первой странице счета-фактуры с помощью штампа с QR-кодом, где угодно на этой странице, где есть это комната. QR-код может быть не полностью выровнен по горизонтали или вертикали.
Затем я отсканирую пачку этих штампованных накладных в один go и получу один многостраничный файл PDF, содержащий несколько накладных.
Вопрос: Есть ли способ разбить этот многостраничный файл PDF на несколько файлов, каждый из которых соответствует одному счету? Более конкретно, существует ли, предпочтительно, приложение с открытым исходным кодом или аналогичное приложение командной строки Linux, которое способно находить QR-коды в файлах PDF и разбивать его в том месте, где оно находит эти QR-коды?
Разделение страницы должно быть выполнено на странице, где встречается штампованный QR-код. Поскольку счета-фактуры не всегда имеют одинаковое количество страниц, это означает, что длина полученных PDF-файлов для каждого счета-фактуры может быть разной.
Я бы предположил, что многостраничный PDF-файл сначала нужно будет преобразовать. в одну картинку на страницу, тогда необходимо будет искать QR-код на каждой картинке / странице. Каждый раз, когда QR-код найден, он представляет первую страницу нового счета. На основании этих знаний можно скомпилировать файлы PDF для каждого счета-фактуры или разделить исходный файл PDF на найденные номера страниц (например, с помощью PDFsam).