не уверен в Java (я уверен, что это возможно), но для Perl вы можете попробовать модуль CPAN, LWP / UserAgent может легко захватывать страницы
http://search.cpan.org/~gaas/libwww-perl-6.03/lib/LWP/UserAgent.pm
require LWP::UserAgent;
my $ua = LWP::UserAgent->new;
$ua->timeout(10);
$ua->env_proxy;
my $response = $ua->get('http://search.cpan.org/');
if ($response->is_success) {
print $response->decoded_content; # or whatever
}
Видел твой комментарий выше, поэтому подумал, что добавлю. Удалять пробелы в Perl легко:
$string =~ s/\s//g;
или применяется к вышеуказанному коду
$response->decoded_content =~ s/\s//g;