Преобразование HTML в простой текст без разбора C ++? - PullRequest
0 голосов
/ 20 февраля 2011

Я хочу удалить все теги HTML из текста. Но я не хочу анализировать весь документ, используя любую библиотеку dom, потому что создание dom-дерева будет влиять на производительность, так как меня не волнует структура.

Есть ли быстрый и эффективный способ конвертировать HTML в простой текст?

1 Ответ

6 голосов
/ 20 февраля 2011

Если вам не нужно дерево DOM в памяти, используйте синтаксический анализатор с интерфейсом SAX.Имейте в виду, что некоторый реальный HTML может нуждаться в отказоустойчивом разборе.

...