парсинг ссылок и таблиц с использованием VB.net HTML AgilityPack - PullRequest
1 голос
/ 18 апреля 2011

Я пытаюсь кое-что почистить и обнаружил HTML-пакет AgilityPack, но у меня возникают проблемы с выяснением того, как его использовать с VB.net.

Первое, что я хочу сделать, это найтистрока URL для тега HREF, если я знаю текст, заключенный в HREF.

Второе, что я хочу сделать, - это проанализировать таблицу HTML, просмотреть каждую строку и извлечь данные.так что я могу сохранить его в базе данных (после некоторого базового анализа).

1 Ответ

1 голос
/ 18 апреля 2011

Вот хорошая стартовая ссылка на SO: Как использовать HTML Agility Pack

См. Также: Пример HtmlAgilityPack для изменения ссылок не работает.Как мне это сделать?

И это: Поиск всех URL-адресов HREF в документе HTML (даже в некорректном HTML)

Чтобы найти конкретныйHREF, синтаксис xpath будет "// a [@ href = 'your url']", что означает: "получить любой тег A с атрибутом HREF, равным 'your url'.

РЕДАКТИРОВАТЬ:

Чтобы найти HREF, если вы знаете только текст, например, если у вас есть html текст '<a href="homepage.html">Cars</a>' и искать homepage.html, то это то, как вы это сделаете.

        string s = @"<a href=""homepage.html"">Cars</a>";

        HtmlDocument doc = new HtmlDocument();
        doc.LoadHtml(s);

        HtmlNode node = doc.DocumentNode.SelectSingleNode("//a[text()='Cars']");
        Console.WriteLine("href=" + node.GetAttributeValue("href", null));
...