Как я могу разобрать этот HTML-файл? - PullRequest
0 голосов
/ 14 июня 2010
<div id="main">

<style type="text/css">
</style>

<script language="JavaScript">    
</script>
<p style="margin: 0pt 0pt 0.5em;"><b>Media from&nbsp;<a onclick="(new Image()).src='/rg/find-media-title/media_strip/images/b.gif?link=/title/tt0087538/';" href="/title/tt0087538/">The Karate Kid</a> (1984)</b></p>
<style type="text/css">    
</style>

<table style="border-collapse: collapse;">
</table>
</div>

Мне нужно как-то извлечь значение href (new Image ()). Как именно это можно сделать с помощью HtmlAgilityPack?

Я новичок в этом, и до сих пор я не нашел полезного учебника о том, как эффективно использовать его для анализа.

Спасибо за помощь!

1 Ответ

0 голосов
/ 26 июня 2010

HtmlAgilityPack сам по себе не предоставляет много опций разбора. Но вы можете использовать его с XPath для выполнения любого сложного анализа. В вашем примере вы могли бы сделать -

var testString = "..."; // Your html 
var doc = new HtmlDocument();
doc.LoadHtml(testString);
var node = doc.DocumentNode.SelectSingleNode("/div/p/b/a");
var hrefValue = node.GetAttributeValue("href", ""));

Это даст

/title/tt0087538/
...