Извлечение ссылок на новости с сайта новостей - PullRequest
0 голосов
/ 03 мая 2010

Есть ли надежный способ узнать коллекцию ссылок, которая направляет нас на детальную новостную страницу. другими словами, после посещения первой страницы сайта, я просто хочу те ссылки, которые ссылаются на новость. любое решение?

Ответы [ 2 ]

0 голосов
/ 03 мая 2010

Вы можете выполнить простой WebRequest, загрузить страницу и выполнить поиск в html контента, который вы хотите проанализировать.

   WebRequest req = WebRequest.Create
              ("http://www.domain.com/news.html");
    req.Proxy = null;
    using (WebResponse res = req.GetResponse())
    using (Stream s = res.GetResponseStream())
    using (StreamReader sr = new StreamReader(s))
        File.WriteAllText("news.html", sr.ReadToEnd());
    //search through html page for news content.

    System.Diagnostics.Process.Start("news.html");
0 голосов
/ 03 мая 2010

Если это для одного определенного сайта, вы всегда можете попробовать извлечь HTML-код сайта и извлечь ссылки на новостные статьи с помощью регулярных выражений. Просто найдите фрагменты в HTML, которые ваш код может использовать, чтобы определить, где находятся ссылки.

Я сделал это пару раз, чтобы почерпнуть информацию с сайта.

Но, может быть, очевидный вопрос, нет ли RSS-ленты на сайте?

...