Как получить одну таблицу из исходного файла HTML с помощью модуля lwp? - PullRequest
0 голосов
/ 29 мая 2019

Я начинающий.Я хочу знать, как получить одну таблицу из исходного файла HTML с помощью модуля LWP?Можно ли использовать Regex с LWP?

Ответы [ 2 ]

2 голосов
/ 29 мая 2019

Вы можете использовать LWP для получения HTML-источника веб-страницы.Проще всего, с помощью функции get() из LWP :: Simple .

my $html = get('http://example.com/');

Теперь в $html есть текстовая строка (потенциально очень длинная текстовая строка)который содержит HTML.Вы можете использовать любые методы для извлечения данных из этой строки.

( Подсказка: Использование регулярного выражения для этого, вероятно, будет очень плохой идеей. Это будет гораздо сложнее, чемвы ожидаете и, вероятно, очень хрупкие. Возможно, используйте лучший инструмент - например, HTML :: TableExtract .)

0 голосов
/ 29 мая 2019
use Web::Query::LibXML 'wq';

wq('https://www.december.com/html/demo/table.html')
    ->find('table th')
    ->each(sub {
        my (undef, $e) = @_;
        print $e->text . "\n";
    });
__END__
Outer Table
Inner Table
CORNER
Head1
Head2
Head3
Head4
Head5
Head6
Little
...