В настоящее время я строю скребок и хочу определить, являются ли определенные элементы дочерними по отношению к href и к которым в конечном итоге можно перейти. Число дочерних узлов, которые могут присутствовать, является неопределенным, и некоторые элементы могут не быть дочерними элементами hrefs.
Я дошел до XPath элементов, для которых я хотел бы определить ссылки.
string xpathToParentNode=node.ParentNode.Ancestors().FirstOrDefault().XPath;
/html[1]/body[1]/div[1]/section[6]/div[1]/div[1]/div[1]/ul[1]/li[5]/a[1]/div[1]
<a href="desired/link">
<div>
<span>Here is some content I've found</span>
</div>
</a>
<div class="something">
<div class="something Else">
<h2>Here is some more content I've found, but with no link</h2>
</div>
</div>
Если бы я нашел элемент span, содержащий «Вот какой контент я нашел», я бы также хотел получить нужную ссылку / ссылку. Это также должно было бы учитывать элементы, которые не являются ссылками, например, элемент, содержащий «Вот еще несколько материалов, которые я нашел, но без ссылки».