Многое зависит от того, насколько «расплющен» документ. Вы можете легко получить доступ к ссылкам, заголовкам страниц, значкам и т. Д., Но, насколько я знаю, вы не имеете дело с документом, параллельным HTML DOM, в котором на все можно ссылаться в некоторых way.
При создании PDF-файла даже из многоуровневого приложения, такого как Illustrator, части документа объединяются (сглаживаются) для сохранения небольшого размера файла. Каждый новый уровень представления может содержать то, что для первоначального дизайнера могло быть не связанным и / или несмежным элементом. Что-то вверху в правом верхнем углу страницы может быть объединено с чем-то, казалось бы, не связанным в левом нижнем углу.
Все зависит от того, какие настройки использовал создатель документа. Имейте в виду, что тот, кто его создал, мог даже вообще не преобразовывать элементы в формат PDF - например, можно импортировать целые страницы в виде отдельных файлов изображений. Там, где элементы являются адресуемыми, вам часто приходится проходить циклически, как элементы, ища именованный элемент (например, страницу, заголовок или значок).