Хм ... быстро соображая ... Как насчет:
my $htmllength = 0;
my $textlength = 0;
while(<>) {
s/(<[^>]*>)/$htmllength += length($1); "";/eg;
$textlength += length($_);
}
print "HTML Code: " . (100 * $htmllength / ($htmllength + $textlength)) . "\n";
print "Text : " . (100 * $textlength / ($htmllength + $textlength)) . "\n";
Затем вы можете просто запустить скрипт для файла (ов):
perl SCRIPT file1.html file2.html
ПРИМЕЧАНИЕ: это не будет работать, если ваши данные содержат какие-либо поля CDATA