Question

Я хотел бы написать скрипт на Perl, чтобы получить html-содержимое веб-страницы, а затем очистить содержимое таблицы. Точная страница:

http://djbpmstudio.com/Default.aspx?Page=album&id=1

На данный момент я могу повторно определить Исполнителя, Альбом и Жанр, а также первую запись в таблице, используя следующий код:

use LWP::Simple;

$url = "http://djbpmstudio.com/Default.aspx?Page=album&id=1";
my $mystring = get($url) or die "Error fetching source page.";
$mystring =~ s/[\r\n]/ /g;      #remove line breaks from HTML
$mystring =~ s/(>)\s+(<)/$1$2/g;    #Remove white space between html tags 
#print $mystring;

if($mystring =~ m{</table><h1>(.*?) - (.*?) - (.*?)</h1>}) {
    #Get Artist name and print
    print "Artist: $1\n";
    print "Album:  $2\n";
    print "Genre:  $3\n\n";

    if($mystring =~ m{</tr><tr class="row-(.*?)"><td>(.*?)</td><td align="right">(.*?)</td></tr>}) {
        #Get Songname and BPM and print
        #print "$1\t";
        print "$2\t";
        print "$3\n";
    }
}

В гнезде IF класс чередуется между "row-a" и "row-b".

Я не уверен, как пройти по списку и получить все названия песен и BPM для каждого. Я также хотел бы поместить имена песен и BPM в массив для последующей обработки.

Спасибо.

tadmc · Answer 1 · 26 апреля 2011

Использование регулярных выражений для обработки HTML почти всегда плохая идея.

Не будь плохим.

Используйте модуль, который понимает данные HTML для обработки HTMLданные.

#!/usr/bin/perl
use warnings;
use strict;
use LWP::Simple;
use HTML::TableExtract;

my $html = get 'http://djbpmstudio.com/Default.aspx?Page=album&id=1';

my $te = new HTML::TableExtract( headers => ['Track Name', 'BPM'] );
$te->parse($html);
foreach my $ts ($te->table_states) {
   foreach my $row ($ts->rows) {
       next unless $row->[0] =~ /\w/;   # skip garbage rows
       printf "%-20s   ==>   %.2f\n", $row->[0], $row->[1];
   }
}

snoofkin · Answer 2 · 26 апреля 2011

Используйте HTML :: TableExtract для очистки данных из таблиц, это сделает вашу жизнь намного проще.

Данные Perl Screen Scrape из таблицы

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Данные Perl Screen Scrape из таблицы

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы