Я ищу способ вычистить URL-адреса с веб-страницы и вывести их в текстовый файл. Например, если страница содержит несколько http://example.com/article, я хочу получить оба этих URL-адреса и вывести их в текстовый файл.
http://example.com/article
Взгляните на WWW :: Mechanize .
Пример кода:
use strict; use warnings; use 5.010; use WWW::Mechanize; my $mech = WWW::Mechanize->new(); $mech->get('http://example.com/example'); foreach my $link ($mech->find_all_links()) { say $link->url_abs(); }
Использование HTML :: SimpleLinkExtor :
use strict; use warnings; use HTML::SimpleLinkExtor; my $extor = HTML::SimpleLinkExtor->new(); $extor->parse_url('http://example.com/article'); my @links = $extor->absolute_links();