Htmlnode сбор и разбор - PullRequest
       22

Htmlnode сбор и разбор

0 голосов
/ 08 октября 2009

Я пытаюсь извлечь текст, содержащийся на веб-странице. Так что я использую третью парную утилиту Html Agility Pack. В том, что они упомянули:

HtmlWeb htmlWeb = new HtmlWeb();
HtmlDocument doc = htmlWeb.Load("http://www.msn.com/");

HtmlNodeCollection links = doc.DocumentNode.SelectNodes("//a[@href]");
foreach (HtmlNode link in links)
{
Response.Write(link.Attributes["href"].Value + "<br>");
}

Это работает для меня, чтобы захватить все другие ссылки, содержащиеся на странице. Но я хочу получить все текстовые данные, содержащиеся на этой странице. Возможно ли это?

Ответы [ 2 ]

1 голос
/ 08 октября 2009

Да, это возможно. Загрузите исходный код для HtmlAgilityPack и взгляните на пример проекта Html2Txt, в частности, HtmlConvert.cs. Вы можете в значительной степени скопировать / вставить их метод во все, что вы делаете.

Или, в этом отношении, скомпилируйте пример проекта как есть и установите ссылку на двоичные файлы. HtmlAgilityPack.Samples.HtmlToText.Convert () будет делать именно то, что вам нужно.

0 голосов
/ 08 октября 2009

вы используете селектор xpath там. Если вы выберете все узлы ("*") и затем выполните foreach, это сработает?

PS: что это за язык программирования?

...