Извлекать <td>текст при использовании WWW :: Mechanize для извлечения <a>внутри этого тега <td> - PullRequest
2 голосов
/ 11 сентября 2010

Я новичок в Perl-HTML.Я пытаюсь получить тексты и ссылки из таблицы HTML.

Вот структура HTML:

<td>Td-Text
    <br>
    <a href="Link-I-Want" title="title-I-Want">A-Text</a>
</td>

Я понял, что WWW :: Mechanize - самый простой модуль для извлечения вещейМне нужно из части <a>, но я не уверен, как получить текст из <td>.Я хочу, чтобы две задачи выполнялись вплотную, потому что мне нужно связать <td>-Text каждой ячейки с соответствующей ей <a>-Text в массиве хэшей.

Любая помощь будет высоко ценится!

Z.Zen

Ответы [ 2 ]

5 голосов
/ 11 сентября 2010

WWW :: Mechanize хорош для извлечения ссылок, но если вам нужно получить другой текст, я обычно комбинирую его с HTML :: TreeBuilder .Примерно так:

use HTML::TreeBuilder;

my $tree = HTML::TreeBuilder->new_from_content($mech->content);

foreach my $td ($tree->look_down(_tag => 'td')) {

  # If there's no <a> in this <td>, then skip it:
  my $a = $td->look_down(_tag => 'a') or next;

  my $tdText = $td->as_text;
  my $aText  = $a->as_text;

  printf("td-text: %s\n a-text: %s\nhref: %s\ntitle: %s\n",
         $tdText, $aText, $a->attr('href'), $a->attr('title'));
}

Единственная проблема с этим кодом заключается в том, что вам не нужен весь текст в теге <td>.Как вы исправите это зависит от вас.Если $aText достаточно уникален, вы можете сделать что-то вроде:

$tdText =~ s/\Q$aText\E.*//s;

В худшем случае вам придется написать собственную функцию для извлечения нужных текстовых элементов, останавливаясь на <br> (или как вы определяете точку остановки).

0 голосов
/ 11 сентября 2010

Я обнаружил, что HTML :: TreeBuilder - это отличный способ разбора HTML-документов и извлечения информации из них.В этом случае что-то вроде:

use HTML::TreeBuilder;
my $page = get($URL);
my $tree = HTML::TreeBuilder->new_from_content($page);

foreach my $cell ($tree->look_down(_tag => "td")) {
   my $links = $cell->extract_links();
   foreach my $link (@$links) {
      print "href: ", $link->attr("href"), "; text: ", $link->as_text, "\n";
   }
}
$tree = $tree->delete;

Ресурсы

...