Лучшая библиотека C / C ++ для очистки HTML? - PullRequest
0 голосов
/ 17 декабря 2009

Я ищу функциональный C / C ++, эквивалентный HTML :: Defang, и мой Google-фу не смог ничего раскрыть. Я хочу сохранить любые доброкачественные метки и удалить все остальное. Не имея реальной библиотеки, мы будем благодарны за любые указатели на полные списки тегов / атрибутов / и т. Д. Для определения. Я знаю о http://en.wikipedia.org/wiki/DOM_Events. Спасибо.

Ответы [ 2 ]

1 голос
/ 24 июля 2010

libxml2 бесплатен и должен делать то, что вы хотите.

http://www.xmlsoft.org/

См. Эту часть API: http://www.xmlsoft.org/html/libxml-HTMLparser.html

Функция htmlReadFile() может помочь.

Для начала работы с libxml2 можно найти несколько примеров здесь:

http://www.xmlsoft.org/examples/index.html

1 голос
/ 17 декабря 2009

В Java я использую JTidy для очистки HTML. Я не уверен, что он подойдет вам, но если вы используете Google для JTidy, вы также можете перейти по ссылке на реализацию C / C ++ и посмотреть, выполняет ли она то, что вам нужно.

Что касается того, что нужно очищать: посмотрите спецификации W3C для HTML; любой тег, которого там нет, не принадлежит HTML. Но опять же, я мог бы неправильно понять вашу концепцию "defang".

...