Получить ссылки в классе с html agility pack - PullRequest
13 голосов
/ 18 мая 2010

Есть куча tr с классом alt. Я хочу получить все ссылки (или первые из последних), но пока не могу понять, как с html agility pack.

Я пробовал варианты, но я получаю все ссылки или нет. Кажется, он не получает только один в узле, что не имеет смысла, так как я пишу n.SelectNodes

html.LoadHtml(page);
var nS = html.DocumentNode.SelectNodes("//tr[@class='alt']");
foreach (var n in nS)
{
  var aS = n.SelectNodes("a");
  ...
}

Ответы [ 2 ]

15 голосов
/ 18 мая 2010

Вы можете использовать LINQ:

var links = html.DocumentNode
           .Descendants("tr")
           .Where(tr => tr.GetAttributeValue("class", "").Contains("alt"))
           .SelectMany(tr => tr.Descendants("a"))
           .ToArray();

Обратите внимание, что это также будет соответствовать <tr class="Malto">; Вы можете заменить вызов Contains на регулярное выражение.

Вы также можете использовать Fizzler :

html.DocumentNode.QuerySelectorAll("tr.alt a");

Обратите внимание, что оба метода также будут возвращать якоря, которые не являются ссылками.

11 голосов
/ 26 мая 2010

Почему бы не выбрать все ссылки в одном запросе:

html.LoadHtml(page);
var nS = html.DocumentNode.SelectNodes("//tr[@class='alt']//a");
foreach(HtmlNode linkNode in nS)
{
//do something
}

Это действительно для html:

<table>
<tr class = "alt">
<td><'a href="link.html">Some Link</a></td>
</tr>
</table>
...