Я использую следующий код, чтобы привести в порядок фрагмент неисследованных HTML-кодов.
perl -Mutf8 -MXML::LibXML -E'
my $filename = "1.html";
open $fh, "<", $filename;
binmode $fh;
my $dom = XML::LibXML->load_html(
IO => $fh,
recover => 1,
suppress_errors => 1,
huge => 10000000,
);
say $dom->toString();
' > tidy.html
Неисследованные коды HTML (без конечного тега </p>
):
1.html:
<p>aΩ<span>test</span>
Как видите, в теге <p>
есть один специальный символ Ω
, после аккуратного процесса Ω
кодируется как Ω
какзатем (приведенные в порядок HTML-коды):
tidy.html:
<html><body><p>aΩ<span>test</span></p></body></html>
Могу ли я сохранить Ω
в исходном виде вместо его закодированной формы в выводе tidy?
Или есть ли другие альтернативы, чтобы сделатьаккуратный процесс, который не будет кодировать специальные символы?