Слабый разбор HTML в C ++? - PullRequest
       6

Слабый разбор HTML в C ++?

4 голосов
/ 24 января 2011

Я ищу решение для анализа потенциально искаженного HTML в C ++, похожее на то, что Beautiful Soup делает в Python.

Обычно, просто с помощью парсера XML будет работать, ноконкретный HTML в этом случае не является допустимым XML / XHTML и не может быть правильно проанализирован.

Существуют ли библиотеки / инструменты для этого?

Ответы [ 3 ]

6 голосов
/ 24 января 2011

Вы можете использовать HTMLTidy для преобразования HTML в действительный XML, а затем использовать любой доступный синтаксический анализатор C ++ XML

2 голосов
/ 24 января 2011

Согласно документации LibXml2 способен анализировать HTML4.

0 голосов
/ 24 января 2011

Я использовал Xerces и рекомендую его для C ++.Он имеет модель DOM и SAX.

...