Xerces-C: разбирать Javascript внутри HTML - PullRequest
0 голосов
/ 17 декабря 2011

Я хочу разобрать сайты по их метатегам.Для этого я использую xerces-c.

shared_ptr<SAX2XMLReader> parser(XMLReaderFactory::createXMLReader());

//Create and set callback handler with the given callback functions
Handler handler(startElement,endElement,characters);
parser->setContentHandler(&handler);
parser->setErrorHandler(&handler);

//Parse the file with the given callback handler
parser->parse(filename.c_str());

На некоторых веб-сайтах теперь есть javascript.Внутри тегов сценария javascript использует оператор && для логического и.

Xerces-C интерпретирует это как ссылку на сущность (например) и выдает исключение, потому что не знает ссылку на сущность &&.

Есть ли способ правильно прочитать это как текст?

Или, если нет - есть ли способ просто игнорировать все символы внутри тегов скрипта?Мне все равно они не нужны.Я просто хочу разобрать метатеги.

1 Ответ

2 голосов
/ 17 декабря 2011

По сути, html не обязательно правильно сформирован xml, но вы можете, например, предварительно обработать его с помощью tidy перед подачей в анализатор xml.

...