Html Agility Pack - Использование XPath для определения того, является ли элемент дочерним элементом href - PullRequest
0 голосов
/ 13 апреля 2019

В настоящее время я строю скребок и хочу определить, являются ли определенные элементы дочерними по отношению к href и к которым в конечном итоге можно перейти. Число дочерних узлов, которые могут присутствовать, является неопределенным, и некоторые элементы могут не быть дочерними элементами hrefs.

Я дошел до XPath элементов, для которых я хотел бы определить ссылки.

string xpathToParentNode=node.ParentNode.Ancestors().FirstOrDefault().XPath;

/html[1]/body[1]/div[1]/section[6]/div[1]/div[1]/div[1]/ul[1]/li[5]/a[1]/div[1]

<a href="desired/link">
  <div>
      <span>Here is some content I've found</span>
  </div>    
</a>

<div class="something">
  <div class="something Else">
    <h2>Here is some more content I've found, but with no link</h2>
  </div>
</div>

Если бы я нашел элемент span, содержащий «Вот какой контент я нашел», я бы также хотел получить нужную ссылку / ссылку. Это также должно было бы учитывать элементы, которые не являются ссылками, например, элемент, содержащий «Вот еще несколько материалов, которые я нашел, но без ссылки».

...