Я работаю над приложением Microsoft .NET на C # для сбора урожая через Интернет, очистки веб-страниц, извлечения веб-данных, очистки экрана и т. Д., Как бы вы это ни называли.Для разбора HTML я пытаюсь включить HTML Agility Pack, но это не так просто, как я думал.Я включил некоторые спецификации и изображения того, что у меня есть, и надеялся узнать ваше мнение о том, как я могу действовать.в принципе, я хочу сделать что-то похожее на макет, используемый в Visual Web Ripper, но я понятия не имею, как они это делают ... Есть идеи?
Изображения:
http://img69.imageshack.us/img69/8880/webharvester1.png
http://img198.imageshack.us/img198/9563/webharvester2.png
Технические характеристики:
Моя цель - сделать очень удобное в использовании приложение для скачивания и создания щелчков мышью.данные и изображения из Интернета.Я хотел бы загружать HTML-страницы с помощью веб-браузера и выводить проанализированные данные и ссылки на изображения в текстовое поле.Пользователь может указать, какие HTML-теги они хотят, а затем загрузить данные в таблицу.Наконец, экспортируйте данные в любой необходимый им формат.
Я пытаюсь использовать HTML Agility Pack для загрузки HTML-кода на веб-странице и отображения его в текстовом поле.
// Load Web Browser
private void Form6_Load(object sender, EventArgs e)
{
// Navigate to webpage
webBrowser.Navigate("http://www.webopedia.com/TERM/H/HTML.html");
// Save URL to memory
SiteMemoryArray[count] = urlTextBox.Text;
// Load HTML from webBrowser
HtmlWindow window = webBrowser.Document.Window;
string str = window.Document.Body.OuterHtml;
// Extract tags using HtmlAgilityPack and display in textbox
HtmlAgilityPack.HtmlDocument HtmlDoc = new HtmlAgilityPack.HtmlDocument();
HtmlDoc.LoadHtml(str);
HtmlAgilityPack.HtmlNodeCollection Nodes = HtmlDoc.DocumentNode.SelectNodes("//a");
foreach (HtmlAgilityPack.HtmlNode Node in Nodes)
{
textBox2.Text += Node.OuterHtml + "\r\n";
}
}
Для: HtmlWindow window = webBrowser.Document.Window;
Я получаю ошибку: ссылка на объект не установлена на экземпляр объекта.