Я хочу разобрать сайты по их метатегам.Для этого я использую xerces-c.
shared_ptr<SAX2XMLReader> parser(XMLReaderFactory::createXMLReader());
//Create and set callback handler with the given callback functions
Handler handler(startElement,endElement,characters);
parser->setContentHandler(&handler);
parser->setErrorHandler(&handler);
//Parse the file with the given callback handler
parser->parse(filename.c_str());
На некоторых веб-сайтах теперь есть javascript.Внутри тегов сценария javascript использует оператор && для логического и.
Xerces-C интерпретирует это как ссылку на сущность (например) и выдает исключение, потому что не знает ссылку на сущность &&.
Есть ли способ правильно прочитать это как текст?
Или, если нет - есть ли способ просто игнорировать все символы внутри тегов скрипта?Мне все равно они не нужны.Я просто хочу разобрать метатеги.