Question

Я пытаюсь разобрать документ HTML для программы индексирования в сети.Для этого я использую HTML :: TokeParser .

В последней строке моего первого оператора if я получаю сообщение об ошибке:

 if ( $token->[1] eq 'a' ) {
     #href attribute of tag A
     my $suffix = $token->[2]{href};

, чтоговорит Can't use string ("<./a>") as a HASH ref while "strict refs" in use at ./indexer.pl line 270, <PAGE_DIR> line 1.

Является ли моя проблема в том, что (суффикс? или <./a>?) является строкой и ее необходимо преобразовать в хэш-ссылку?Я просмотрел другие посты, в которых были похожие ошибки ... но я все еще не уверен в этом.Спасибо за любую помощь.

sub parse_document {

    #passed from input
    my $html_filename = $_[0];

    #base url for links
    my $base_url = $_[1];

    #created to hold tokens
    my @tokens = ();

    #created for doc links
    my @links = ();

    #creates parser
    my $p = HTML::TokeParser->new($html_filename);

    #loops through doc tags
    while (my $token = $p->get_token()) {
        #code for retrieving links
        if ( $token->[1] eq 'a' ) {
            # href attribute of tag A
           my $suffix = $token->[2]{href};

            #if href exists & isn't an email link
            if ( defined($suffix) && !($suffix =~ "^mailto:") ) {
                #make the url absolute
                my $new_url = make_absolute_url $base_url, $suffix;

                #make sure it's of the http:// scheme
                if ($new_url =~ "^http://"){
                    #normalize the url
                    my $new_normalized_url = normalize_url $new_url;

                    #add it to links array
                    push(@links, $new_normalized_url);
                }
            }
        }

        #code for text words
        if ($token->[0] eq 'T') {
            my $text =  $token->[1];

            #add words to end of array
            #(split by non-letter chars)
            my @words = split(/\P{L}+/, $text);
        }
    }

    return (\@tokens, \@links);
}

Emil Sit · Answer 1 · 31 октября 2011

Метод get_token() возвращает массив, где $token->[2] - это хеш-ссылка, содержащая ваш href, только если $token->[0] - это S (т. Е. Начальный тег). В этом случае вы соответствуете конечному тегу (где $token->[0] - E). Подробнее см. PerlDoc .

Чтобы исправить, добавьте

next if $token->[0] ne 'S';

в верхней части вашего цикла.

Brian Roach · Answer 2 · 31 октября 2011

$token->[2] - это строка, а не ссылка на хеш.

Сделайте print $token->[2], и вы увидите, что это строка, содержащая </a>

ennuikiller · Answer 3 · 31 октября 2011

очевидно $token->[2] разрешается как хеш-ссылка, значение которой "</a>".Конечно, не хотите, вы хотите!

Не можете использовать строку как хэш ref ..?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Не можете использовать строку как хэш ref ..?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы