С префиксом h
, связанным с http://www.w3.org/1999/xhtml
URI пространства имен:
/h:html/h:body/h:div[@id='content']
/h:div[@id='bodyContent']
/h:table[@class='infobox vcard']
/h:tr[h:th='Website']
/h:td/h:a/@href
Кроме того, похоже, что на вики-странице есть правильно сформированный XML (несмотря на то, что он работает как text / html) Итак, если у вас есть XML-документ с URL-адресами страниц, такими как:
<root>
<url>http://en.wikipedia.org/wiki/Vienna_University_of_Technology</url>
</root>
Вы можете использовать:
document(/root/url)/h:html/h:body/h:div[@id='content']
/h:div[@id='bodyContent']
/h:table[@class='infobox vcard']
/h:tr[h:th='Website']
/h:td/h:a/@href