Как я могу получить окончательный URL, не выбирая страницы, используя Perl и LWP? - PullRequest
6 голосов
/ 18 марта 2010

Я делаю просмотр веб-страниц , используя Perl LWP. Мне нужно обработать набор URL-адресов, некоторые из которых могут перенаправлять (1 или более раз).

Как получить окончательный URL-адрес со всеми разрешенными перенаправлениями, используя метод HEAD?

Ответы [ 2 ]

12 голосов
/ 18 марта 2010

Если вы используете полнофункциональную версию LWP :: UserAgent , то возвращаемый ответ является экземпляром HTTP :: Response , который, в свою очередь, имеет в качестве атрибута HTTP :: Request . Обратите внимание, что это НЕ обязательно тот же HTTP :: Request, который вы создали с исходным URL в вашем наборе URL, как описано в документации HTTP :: Response для метода для получения экземпляра запроса в Экземпляр ответа:

$ r-> request ($ request)

Используется для получения / установки атрибута запроса. Атрибут запроса является ссылкой на запрос, вызвавший этот ответ. Это не обязательно должен быть тот же запрос, который был передан методу $ ua-> request (), потому что между ними могли быть перенаправления и повторные попытки авторизации.

Когда у вас есть объект запроса, вы можете использовать метод uri для получения URI. Если использовались перенаправления, URI является результатом следования цепочке перенаправлений.

Вот скрипт Perl, проверенный и проверенный, который дает вам скелет того, что вам нужно:

#!/usr/bin/perl

use strict;
use warnings;

use LWP::UserAgent;

my $ua;  # Instance of LWP::UserAgent
my $req; # Instance of (original) request
my $res; # Instance of HTTP::Response returned via request method

$ua = LWP::UserAgent->new;
$ua->agent("$0/0.1 " . $ua->agent);

$req = HTTP::Request->new(HEAD => 'http://www.ecu.edu/wllc');
$req->header('Accept' => 'text/html');

$res = $ua->request($req);

if ($res->is_success) {
    # Using double method invocation, prob. want to do testing of
    # whether res is defined.
    # This is inline version of
    # my $finalrequest = $res->request(); 
    # print "Final URL = " . $finalrequest->url() . "\n";
    print "Final URI = " . $res->request()->uri() . "\n";
} else {
    print "Error: " . $res->status_line . "\n";
}
8 голосов
/ 18 марта 2010

Как указано в perldoc LWP :: UserAgent , по умолчанию используется перенаправление для запросов GET и HEAD:

$ua = LWP::UserAgent->new( %options )

...
       KEY                     DEFAULT
       -----------             --------------------
       max_redirect            7
       ...
       requests_redirectable   ['GET', 'HEAD']

Вот пример:

#!/usr/bin/perl

use strict; use warnings;
use LWP::UserAgent;

my $ua = LWP::UserAgent->new();
$ua->show_progress(1);

my $response = $ua->head('http://unur.com/');

if ( $response->is_success ) {
    print $response->request->uri->as_string, "\n";
}

Выход:

** HEAD http://unur.com/ ==> 301 Moved Permanently (1s)
** HEAD http://www.unur.com/ ==> 200 OK
http://www.unur.com/
...