удалить все форматирование HTML из строки - PullRequest
1 голос
/ 06 августа 2010

Я пытаюсь сравнить 2 строки, но я только что понял, что у одной уже есть некоторое форматирование html.

Как я могу получить эти две строки для сопоставления при выполнении string1 == string2.(ПРИМЕЧАНИЕ: я не знаю, какое будет форматирование HTML)

string1 = "This is a test";
string1 = "<font color=\"black\" size=\"1\">This is a test</font>";

Ответы [ 3 ]

7 голосов
/ 06 августа 2010

Загрузите html в Html Agility Pack и извлеките только текст.

string html = "<html><body><div>test</div></body></html>";
HtmlDocument document = new HtmlDocument();
document.LoadHtml(html)
string text = document.DocumentNode.InnerText;

Это не удалит содержимое узлов <script>, но вы можете легко удалить сначала узлы сценария.

0 голосов
/ 20 июня 2016
string newText = System.Text.RegularExpressions.Regex.Replace(OldHtmlTextHere, "<[^>]*>", string.Empty);
0 голосов
/ 06 августа 2010

Проверьте system.web.Httputility.HTMLdecode

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...