Question

Я пытаюсь извлечь текст, содержащийся на веб-странице. Так что я использую третью парную утилиту Html Agility Pack. В том, что они упомянули:

HtmlWeb htmlWeb = new HtmlWeb();
HtmlDocument doc = htmlWeb.Load("http://www.msn.com/");

HtmlNodeCollection links = doc.DocumentNode.SelectNodes("//a[@href]");
foreach (HtmlNode link in links)
{
Response.Write(link.Attributes["href"].Value + "<br>");
}

Это работает для меня, чтобы захватить все другие ссылки, содержащиеся на странице. Но я хочу получить все текстовые данные, содержащиеся на этой странице. Возможно ли это?

Cam Soper · Answer 1 · 08 октября 2009

Да, это возможно. Загрузите исходный код для HtmlAgilityPack и взгляните на пример проекта Html2Txt, в частности, HtmlConvert.cs. Вы можете в значительной степени скопировать / вставить их метод во все, что вы делаете.

Или, в этом отношении, скомпилируйте пример проекта как есть и установите ссылку на двоичные файлы. HtmlAgilityPack.Samples.HtmlToText.Convert () будет делать именно то, что вам нужно.

Quamis · Answer 2 · 08 октября 2009

вы используете селектор xpath там. Если вы выберете все узлы ("*") и затем выполните foreach, это сработает?

PS: что это за язык программирования?

Htmlnode сбор и разбор

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Htmlnode сбор и разбор

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы