Как определить, к какой странице относится изображение в спецификации PDF? - PullRequest
0 голосов
/ 28 ноября 2011

Я делаю низкоуровневое извлечение изображений непосредственно из PDF-файла с помощью PHP, так как GhostScript слишком медленный, и у меня все хорошо. Но проблема в том, что я не могу понять, где написано, к какой странице принадлежит изображение. У меня нет проблем с извлечением изображений из PDF, но у меня возникают проблемы с определением их порядка.

Где в данных PDF указано, на какой странице должно отображаться изображение?

1 Ответ

2 голосов
/ 28 ноября 2011

Изображения хранятся в PDF как отдельные объекты.На них ссылаются со страницы через словарь ресурсов страницы, подкатегория XObject.Отношение это страница -> ресурсы -> изображения, поэтому, чтобы узнать, к какой странице принадлежит изображение, вы должны отсканировать все словари ресурсов всех страниц и посмотреть, в каком словаре ресурсов появляется ваше изображение.На изображение можно ссылаться из нескольких ресурсных словарей.Это очень низкий уровень манипулирования PDF, я не знаю, насколько низко вы работаете в своем коде.

...