У меня есть HTML-страница с определенным текстом, который я хочу проанализировать в базе данных, используя Perl Script.
Я хочу иметь возможность отбросить все, что мне не нужно, пример html--
<div class="postbody">
<h3><a href "foo">Re: John Smith <span class="posthilit">England</span></a></h3>
<div class="content">Is C# better than Visula Basic?</div>
</div>
Поэтому я бы хотел импортировать в базу данных
- Имя: Джон Смит.
- Живет в: Англии.
- Комментарий: C # лучше, чем Visula Basic?
Я начал создавать сценарий Perl, но его нужно изменить, чтобы он работал для того, что я хочу;
use DBI;
open (FILE, "list") || die "couldn't open the file!";
open (F1, ">list.csv") || die "couldn't open the file!";
print F1 "Name\|Lives In\|Commented\n";
while ($line=<FILE>)
{
chop($line);
$text = "";
$add = 0;
open (DATA, $line) || die "couldn't open the data!";
while ($data=<DATA>)
{
if ($data =~ /ds\-div/)
{
$data =~ s/\,//g;
$data =~ s/\"//g;
$data =~ s/\'//g;
$text = $text . $data;
}
}
@p = split(/\\/, $line);
print F1 $p[2];
print F1 ",";
print F1 $p[1];
print F1 ",";
print F1 $p[1];
print F1 ",";
print F1 "\n";
$a = $a + 1;
Любая информация будет принята с благодарностью.