Как я могу запретить XML :: XPath извлекать DTD при обработке файла XML? - PullRequest
12 голосов
/ 20 ноября 2008

Мой XML ( a.xhtml ) начинается следующим образом

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN"
  "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
...

Мой код начинается так

use XML::XPath;

use XML::XPath::XMLParser;

my $xp = XML::XPath->new(filename => "a.xhtml");

my $nodeset = $xp->find('/html/body//table'); 

Это очень медленно, и оказывается, что он тратит много времени на получение DTD (http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd).

Есть ли способ явно объявить прокси-сервер HTTP в семействе Perl XML ::? Я ненавижу модифицировать исходный документ a.xhtml , например, иметь локальную копию DTD.

Ответы [ 3 ]

15 голосов
/ 20 ноября 2008

XML :: XPath основан на XML :: Parser. В XML :: Parser есть опция НЕ использовать LWP для разрешения внешних сущностей (таких как DTD). А XML :: XPath позволяет передавать объект XML :: Parser для использования в качестве анализатора.

Итак, вы можете написать это:

my $p = XML::Parser->new( NoLWP => 1);
my $xp= XML::XPath->new( parser => $p, filename => "a.xhtml");

Обратите внимание, что в этом случае вы потеряете все сущности, кроме числовых и значений по умолчанию (>, <, &, & apos; и "). Парсер не будет жаловаться, но они исчезнут тихо (попробуйте включить & alpha; in таблицы и распечатывая ее, например). </p>

На самом деле вам, вероятно, не следует использовать XML :: XPath, который активно не поддерживается.

Попробуйте XML :: LibXML, если у вас нет проблем с установкой libxml2, его интерфейс очень похож на XML :: XPath, поскольку они оба реализуют DOM. XML :: LibXML также намного мощнее XML :: XPath и быстрее загружается. Если вам нужен модуль на основе expat / XML :: Parser, вы можете захотеть взглянуть на XML :: Twig (это откровенная самореклама, так как я являюсь автором модуля, извините). Также для HTML / dodgy XHTML вы можете использовать HTML :: TreeBuilder, который с добавлением HTML :: TreeBuilder :: XPath (также мной) поддерживает XPath.

3 голосов
/ 08 марта 2011
Ответ

porneL здесь, похоже, правильный. (www.w3.org начал отвечать на каждый из моих запросов за 30 секунд (когда он просто не сдается), и когда XML :: XPath заканчивает тем, что получает полный набор XHTML & hellip ;!) Далее, идея Мирода работает тоже:

use XML::XPath;
use XML::Catalog;

my $parser = new XML::Parser;
my $catalog_handler = new XML::Catalog("xhtml1-20020801/DTD/xhtml.soc")->get_handler($parser);
$parser->setHandlers("ExternEnt" => $catalog_handler);
my $xp = new XML::XPath(xml => $xml, parser => $parser);

Добавьте копию «Полный набор файлов DTD вместе с декларацией XML и открытым каталогом SGML» с & lang; URL: http://www.w3.org/TR/xhtml1/dtds.html⟩ и наслаждайтесь!

1 голос
/ 20 ноября 2008

Обычно это делается путем настройки локального каталога XML .

синтаксические анализаторы на основе libxml поддерживают его, поэтому, если вы последуете совету mirod, вы сможете получать именованные объекты и выполнять проверку без доступа к сети.

...