Возникла проблема с попыткой извлечь текст из фрагмента HTML - PullRequest
0 голосов
/ 06 августа 2010

Я использую пакет Agility HTML для преобразования

 <font size="1">This is a test</font>

в

 This is a test

, используя этот код:

 HtmlDocument doc = new HtmlDocument();
 doc.LoadHtml(html);
 string stripped = doc.DocumentNode.InnerText;

, но я столкнулся с проблемойгде у меня есть это:

 <font size="1">This is a test &amp; this is a joke</font>

и код выше преобразовал это в

This is a test &amp; this is a joke

, но я хотел, чтобы он преобразовал его в:

This is a test & this is a joke

делаетПоддержка пакета agility html, что я пытаюсь сделать?почему код HTML agiligy не делает этого по умолчанию или я что-то не так делаю?

1 Ответ

2 голосов
/ 06 августа 2010

Вы можете запустить HttpUtility.HtmlDecode() на выходе.

Однако обратите внимание, что InnerText будет включать HTML-теги, которые могут содержаться внутри самого внешнего тега.Если вы хотите удалить все теги, вам придется пройтись по дереву документа и получить весь текст побитно.

...