Можно ли извлечь одну страницу из документа PDF с помощью запроса GET? - PullRequest
0 голосов
/ 11 октября 2011

Мне нужно перенести цифровой репозиторий на новую платформу, но у меня нет доступа к старой платформе, поэтому я прибег к извлечению объектов через Интернет.

Некоторые объекты содержат другие объекты.Для большинства объектов этого типа идентификация / извлечение компонентов и их метаданных является простым процессом.Но для некоторых файлов PDF представляется, что упомянутые компоненты на самом деле являются ссылками на отдельные страницы в одном файле, а не на отдельные страницы.

Например, http://content.wwu.edu/cdm4/document.php?CISOROOT=/wfront&CISOPTR=2711 дает мне объект с 4 страницами.http://content.wwu.edu/cgi-bin/showfile.exe?CISOROOT=/wfront&CISOPTR=2711&CISOMODE=print позволяет мне получить весь документ.http://content.wwu.edu/cgi-bin/showfile.exe?CISOROOT=/wfront&CISOPTR=2711 извлекает документ XML, сообщающий мне идентификаторы для страниц компонентов, но когда я пытаюсь их свернуть, я просто получаю документы нулевой длины.Но используя тот же метод, когда речь идет о документах, отличных от PDF, я получаю реальные файлы - вот почему я думаю, что извлекаются только отдельные страницы.

Как получить отдельные страницы, так как я должен хранить ихотдельные объекты на новой платформе?Спасибо

1 Ответ

0 голосов
/ 12 октября 2011

Суть в том, что кажется, что это возможно, только если на сервере есть что-то, что будет извлекать отдельные страницы для вас.

Когда я включил wireshark, я обнаружил, что действия в пользовательском интерфейсе вызывали вызов серверного приложения PDF с использованием синтаксиса:

http://content.wwu.edu/cgi-bin/showpdf.exe?CISOROOT=/wfront&CISOPTR=2711&CISOPAGE=3

, где 2711 - имя объекта, а 3 - страница рассматриваемого файла. Дальнейшие эксперименты показали, что я могу открыть любую страницу для любого PDF-файла, который смог идентифицировать.

Для тех, кто сталкивается с подобной проблемой, Wireshark - ваш друг.

...