Непосредственной проблемой является то, что у вас есть:
<p class="prf_faves">
<img src="http://cdn.quakelive.com/web/2010092807/images/profile/none_v2010092807.0.gif"
width="17" height="17" alt="" class="fl fivepxhr" />
<b>Arena:</b> Campgrounds
<div class="cl"></div>
</p>
То есть, после значения для избранного, такого как Arena , нет значения <br />
. Теперь правильный способ сделать это - использовать правильный HTML-парсер. Хрупкое решение состоит в том, чтобы адаптировать ваш шаблон (не проверено):
my ($favarena) = $content =~ m{<b>Arena:</b> ([^<]+)};
Это должно положить все до <
следующего <div>
в $favarena
. Теперь, если все арены являются отдельными словами без пробелов,
my ($favarena) = $content =~ m{<b>Arena:</b> (\S+)};
избавит вас от необходимости урезать пробелы впоследствии.
Обратите внимание, что такие решения на основе регулярных выражений легко одурачить простыми вещами, такими как закомментированные фрагменты в источнике. Например, если источник будет изменен на:
<p class="prf_faves">
<img src="http://cdn.quakelive.com/web/2010092807/images/profile/none_v2010092807.0.gif"
width="17" height="17" alt="" class="fl fivepxhr" />
<!-- <b>Arena: </b> here -->
<b>Arena:</b> Campgrounds
<div class="cl"></div>
</p>
Ваш скрипт будет в затруднении, если решение с использованием парсера HTML не будет.
Пример использования HTML :: TokeParser :: Simple :
#!/usr/bin/perl
use strict; use warnings;
use HTML::TokeParser::Simple;
my $p = HTML::TokeParser::Simple->new( 'martianbuddy.html' );
while ( my $tag = $p->get_tag('p') ) {
next unless $tag->is_start_tag;
next unless defined (my $class = $tag->get_attr('class'));
next unless grep { /^prf_faves\z/ } split ' ', $class;
my $fav = $p->get_tag('b');
my $type = $p->get_text('/b');
my $value = $p->get_text('/p');
$value =~ s/\s+\z//;
print "$type = $value\n";
}
Выход:
Arena: Campgrounds
Game Type: Clan Arena
Weapon: Rocket Launcher
И вот пример использования HTML :: TreeBuilder :
#!/usr/bin/perl
use strict; use warnings;
use HTML::TreeBuilder;
use YAML;
my $tree = HTML::TreeBuilder->new;
$tree->parse_file('martianbuddy.html');
my @p = $tree->look_down(_tag => 'p', sub {
return unless defined (my $class = $_[0]->attr('class'));
return unless grep { /^prf_faves\z/ } split ' ', $class;
return 1;
}
);
for my $p ( @p ) {
my $text = $p->as_text;
$text =~ s/^\s+//;
my ($type, $value) = split ': ', $text;
print "$type: $value\n";
}
Выход:
Arena: Campgrounds
Game Type: Clan Arena
Weapon: Rocket Launcher
Учитывая, что документ является фрагментом HTML, а не полным документом, вы будете более успешны с модулями, основанными на HTML :: Parser , а не с модулями, которые рассчитаны на работу с правильно сформированными документами XML.