Question

Я пытаюсь получить доступ к файлам .html и извлечь текст в тегах <p>. Логично, мой код ниже должен работать. Используя HTML :: TreeBuilder. Я анализирую HTML, а затем извлекаю текст в <p>, используя find_by_attribute («p»). Но мой скрипт вышел с пустыми каталогами. Я что-нибудь пропустил?

#!/usr/bin/perl

use strict;
use HTML::TreeBuilder 3;
use FileHandle;

my @task = ('ar','cn','en','id','vn');

foreach my $lang (@task) {
mkdir "./extract_$lang", 0777 unless -d "./extract_$lang";
opendir (my $dir, "./$lang/") or die "$!";
my @files = grep (/\.html/,readdir ($dir));
closedir ($dir);

foreach my $file (@files) {
    open (my $fh, '<', "./$lang/$file") or die "$!";
    my $root = HTML::TreeBuilder->new;
    $root->parse_file("./$lang/$file");
    my @all_p = $root->find_by_attribute("p");
    foreach my $p (@all_p) {
        my $ptag = HTML::TreeBuilder->new_from_content ($p->as_HTML);
        my $filewrite = substr($file, 0, -5); 
        open (my $outwrite, '>>', "extract_$lang/$filewrite.txt") or die $!;
        print $outwrite $ptag->as_text . "\n";  
        my $pcontents = $ptag->as_text;
        print $pcontents . "\n";
        close (outwrite);
    }
close (FH);
}
}

Мои файлы .html представляют собой простые текстовые htmls с веб-сайтов .asp, например. http://www.singaporemedicine.com/vn/hcp/med_evac_mtas.asp

Мои файлы .html сохраняются в:

./ar/*
./cn/*
./en/*
./id/*
./vn/*

daxim · Answer 1 · 19 декабря 2011

Вы путаете элемент с атрибутом . Программу можно написать гораздо лаконичнее:

#!/usr/bin/env perl
use strictures;
use File::Glob qw(bsd_glob);
use Path::Class qw(file);
use URI::file qw();
use Web::Query qw(wq);
use autodie qw(:all);

foreach my $lang (qw(ar cn en id vn)) {
    mkdir "./extract_$lang", 0777 unless -d "./extract_$lang";
    foreach my $file (bsd_glob "./$lang/*.html") {
        my $basename = file($file)->basename;
        $basename =~ s/[.]html$/.txt/;
        open my $out, '>>:encoding(UTF-8)', "./extract_$lang/$basename";
        $out->say($_) for wq(URI::file->new_abs($file))->find('p')->text;
        close $out;
    }
}

Eugene Yarmash · Answer 2 · 19 декабря 2011

Вы хотите find_by_tag_name, а не find_by_attribute:

my @all_p = $root->find_by_tag_name("p");

Из документов :

$ h-> find_by_tag_name ('tag', ...)

В контексте списка возвращает список элементов со значением $ h или ниже, которые имеют любое из указанных имен тегов.В скалярном контексте возвращает первый (при обходе дерева по предварительному порядку) такой найденный элемент, или undef, если его нет.

choroba · Answer 3 · 19 декабря 2011

Используйте find_by_tag_name для поиска имен тегов, а не find_by_attribute.

Alexander Hartmaier · Answer 4 · 19 декабря 2011

Возможно, вы захотите взглянуть на Mojo :: DOM, который позволяет использовать CSS-селекторы.

Извлечение текста из HTML - Perl с использованием HTML :: TreeBuilder

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Извлечение текста из HTML - Perl с использованием HTML :: TreeBuilder

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы