Я разрабатываю веб-сайт, который очищает ведущие технологические сайты, такие как thenextweb.com, mashable.com, readwriteweb.com и т. Д.
Теперь одним из способов отказаться от использования Html Agility Pack является использование одного веб-сайта, позволяющего thenextweb.com и получить ссылки на статьи и контент в соответствии с <tags>
, то есть, используя <div class ="article-listing"> ..... </div>
, и получать ссылки через него.Точно так же алгоритм разработки для каждого сайта (так как теги различны для каждого сайта).
Вот что я использовал для получения ссылок с домашней страницы сайта thenextweb.com:
var webGet = new HtmlWeb();
var document = webGet.Load(url);
var infos = from info in
document.DocumentNode.SelectNodes("//div[@class='article-listing']")
select new
{
Contr = info.InnerHtml
};
lvLinks.DataSource = infos;
lvLinks.DataBind();
Есть ли другой простой способ, с помощью которого я могу извлекать ссылки и контент (пост и его изображения, дата и т. Д.)?