Как программно добавить объявления сущностей через XML :: Twig? - PullRequest
4 голосов
/ 22 октября 2010

Я не могу понять документацию XML :: Twig для обработки сущностей.

У меня есть какой-то XML, который я генерирую с помощью HTML :: Tidy. Вызов выглядит следующим образом:

my $tidy = HTML::Tidy->new({
    'indent'          => 1,
    'break-before-br' => 1,
    'output-xhtml'    => 0,
    'output-xml'      => 1,
    'char-encoding'   => 'raw',
});

$str = "foo   bar";
$xml = $tidy->clean("<xml>$str</xml>");

, который производит:

<html>
  <head>
    <meta content="tidyp for Linux (v1.02), see www.w3.org" name="generator" />
    <title></title>
  </head>
  <body>foo &nbsp; bar</body>
</html>

XML :: Twig (понятно) barfs на &nbsp;. Я хочу сделать некоторые преобразования, запустив его через XML :: Twig:

my $twig = XML::Twig->new(
  twig_handlers => {... handlers ...}
);

$twig->parse($xml);

Строка $twig->parse barfs на &nbsp;, но я не могу понять, как программно добавить элемент &nbsp; . Я пробовал такие вещи, как:

my $entity = XML::Twig::Entity->new("nbsp", "&#160;");
$twig->entity_list->add($entity);
$twig->parse($xml);

... но без радости.

Пожалуйста, помогите =)

Ответы [ 3 ]

5 голосов
/ 27 октября 2010

Грязный, но эффективный трюк в таком случае - добавить поддельное объявление DTD.

Тогда XML :: Parser, который выполняет синтаксический анализ, будет считать, что сущность определена в DTD, и не будет препятствовать ему.

Чтобы избавиться от поддельной декларации DTD, вы можете вывести корень ветки. Если вам нужно другое объявление, создайте его и замените текущее:

#!/usr/bin/perl 

use strict;
use warnings;

use XML::Twig;

my $fake_dtd= '<!DOCTYPE head SYSTEM "foo"[]>'; # foo may not even exist

my $xml='<html>
  <head>
    <meta content="tidyp for Linux (v1.02), see www.w3.org" name="generator" />
    <title></title>
  </head>
  <body>foo &nbsp; bar</body>
</html>';

XML::Twig->new->parse( $fake_dtd . $xml)->root->print;
3 голосов
/ 22 октября 2010
use strict;
use XML::Twig;

my $doctype = '<?xml version="1.0" encoding="utf-8"?><!DOCTYPE html [<!ENTITY nbsp "&#160;">]>';
my $xml = '<html><head><meta content="tidyp for Linux (v1.02), see www.w3.org" name="generator" /><title></title></head><body>foo &nbsp; bar</body></html>';

my $xTwig = XML::Twig->new();

$xTwig->safe_parse($doctype . $xml) or die "Failure to parse XML : $@";

print $xTwig->sprint();
1 голос
/ 22 октября 2010

Возможно, есть лучший способ, но код ниже работал для меня:

my $filter = sub {
    my $text  = shift;
    my $ascii = "\x{a0}";    # non breaking space
    my $nbsp  = '&nbsp;';
    $text =~ s/$ascii/$nbsp/;
    return $text;
};

XML::Twig->new( output_filter => $filter )
         ->parse_html( $xml )
         ->print;
...