Можно ли разбить PDF-файл меньше, чем разбиение по страницам? - PullRequest
0 голосов
/ 27 февраля 2012

Я обнаружил, что существует множество инструментов, позволяющих разбить большие PDF-файлы на более мелкие путем разбиения исходного PDF-файла. СТРАНИЦА WISE. Например, если у меня есть 10-страничный PDF-документ, мы можем разбить исходный файл.PDF-файл на 10 частей в разбивке по страницам.

Но я хочу подобный инструмент, который разбивает PDF-файл меньше, чем разбиение по страницам. Это означает, что мне нужно разбить страницу PDF на разные документы на основелюбой параметр, такой как параграф, раздел, элемент ...

, например,
Если мой PDF-файл содержит 2 страницы с 10 абзацами, то я хотел бы разбить pdf-файл на 10 отдельных PDF-файлов на основе абзацапараметр ...

Кроме того, я твердо верю, что pdf не содержит никакой структуры, такой как Open XML. Но я также подозреваю


Как инструменты могут взломать pdfфайлы в небольшие PDF-файлы, разбивая их по страницам?
Какой механизм они используют для разбивки страниц по файлам PDF?

Итак, есть ли способ сделать мою работу?Пожалуйста, дайте мне ваше ценное предложение по этому поводу?

1 Ответ

2 голосов
/ 27 февраля 2012

PDF - это язык описания документов на векторной основе. Она основана на страницах, так что каждая страница независима от следующей. Поэтому разделить страницу довольно просто. В отличие от растрового изображения, где вы можете независимо извлекать небольшие подмножества в формате pdf, вы должны отобразить всю страницу, чтобы знать, как выглядит небольшое подмножество.

Скажем, у вас есть Страница (черная), которая содержит объект сложной формы (здесь это линия, но это может быть любой текст, фигура, изображение и т. Д.), И вы хотите извлечь подмножество (красное). Сначала вам нужно будет найти все объекты, которые производят видимый вывод в интересующей области. Затем вам нужно изменить их так, чтобы они правильно отображались (в этом случае вычисляйте зеленые точки из синих точек, сохраняя форму объекта).

Complex shape on a page

Более простой подход - включить всю страницу и обрезать область просмотра по размерам области.

Вы можете сделать это с pdfjam. Проверьте команду --trim / --offset / --delta в сочетании с нестандартным размером бумаги (пример 6,7 на веб-сайте pdfjam). Вам все равно придется каким-то образом вычислять координаты интересующей области.

...