Удалять пробелы и символы новой строки при разборе с помощью HtmlAgilityPack - PullRequest
6 голосов
/ 05 января 2012

Я попытался проанализировать HTML с помощью HtmlAgilityPack следующим образом:

HtmlDocument htmlDoc = new HtmlDocument();
htmlDoc.LoadHtml(xhtmlString);

К сожалению, xhtmlString содержит ненужные пробелы и символы новой строки, поэтому текст _htmlDoc теперь выглядит следующим образом:

<html xmlns=\"http://www.w3.org/1999/xhtml\">\n\t<head></head>\n\t<body>\n\n<p>Alle Auktionen<br /></p>\n\n\t</body>\n</html>

Это проблема для меня при работе с дочерними элементами тела.

Какой самый простой способ удалить эти ненужные символы?

Предлагает ли HtmlAgilityPack какую-либо функцию для очистки HTML от новых строк и вкладок?

1 Ответ

1 голос
/ 05 января 2012

Это отступ документа, а не лишние пробелы и символы новой строки.
Я не вижу, как это может быть проблемой, но нельзя ли просто заменить специальные символы, такие как "\ t", "\ n"?

Делая быстрый поиск, я нашел это Html Agility Pack: чтобы код выглядел аккуратно
Может быть, установка некоторых свойств на false может быть полезной

...