Я предлагаю сначала использовать утилиту командной строки linux 'pdftotext' - вы можете найти страницу справочника:
Страница справочника pdftotext
Утилита является частьюXpdf коллекция инструментов обработки PDF, доступная в большинстве дистрибутивов Linux.См. http://foolabs.com/xpdf/download.html.
После установки вы можете обработать PDF-файл с помощью pdftotext:
pdftotext file.pdf file.txt
После обработки простой Perl-скрипт, который ищет в полученном текстовом файле URL-адреса http и получаетиспользуя LWP :: Simple .LWP :: Simple-> get ('http: // ...') позволит вам проверять URL с помощью фрагмента кода, такого как:
use LWP::Simple;
$content = get("http://www.sn.no/");
die "Couldn't get it!" unless defined $content;
Это позволит выполнить то, что вы хотите сделать,Я думаю.Существует множество ресурсов о том, как писать регулярные выражения для соответствия URL-адресам http, но очень простое будет выглядеть так:
m/http[^\s]+/i
«http, за которым следует один или несколько непробельных символов» - при условии, чтоURL-адреса являются закодированными URL-адресами свойств.