Есть какие-нибудь предложения по синтаксическому анализу заголовков и ссылок со страниц блога с использованием C #? - PullRequest
0 голосов
/ 19 мая 2010

В настоящее время я в свободное время изучаю C # и подумываю о «маленьком» проекте, который поможет мне (и тот, который я или другие на самом деле сочтем полезным). Это оказалось сложнее, чем я думал. А может я просто так думаю?

В любом случае, этот проект будет анализировать домашние страницы блогов (большинство из них - блоги Wordpress), которые я часто посещаю, получать заголовки постов и ссылки в этих постах и ​​уведомлять меня с помощью всплывающей подсказки на панели задач. Остальное я могу обработать, за исключением способа заставить C # анализировать HTML-страницы для нужных мне элементов. C #, похоже, не имеет встроенного способа сделать это. Кто-нибудь может указать мне правильное направление? Я только что посмотрел на HTML Agility Pack, но все еще пытаюсь понять это. Некоторые примеры кода тоже помогут. Заранее спасибо!

1 Ответ

1 голос
/ 19 мая 2010

Вы делаете правильно, если используете HTML Agility Pack .

Здесь выбираются все ссылки на странице (из здесь ):

HtmlDocument doc = new HtmlDocument();
doc.Load("file.htm");
foreach(HtmlNode link in doc.DocumentElement.SelectNodes("//a[@href"])
{
   HtmlAttribute att = link["href"];
   att.Value = FixLink(att);
}
doc.Save("file.htm");

Возможно, вы захотите освежить свой XPath , если хотите научиться запрашивать HtmlDocument.

...