То, что я пытаюсь сделать, - это просмотреть кучу пользовательских отчетов .html, затем добавить определенные биты данных в просмотр списка, я частично там.
Пример отчета: (https://www.pet -merch.com / sasquatchdatabase.com.html ) - извините за URL, я не знаю, как еще разместить пример.
В этом отчете 4 таблицы,мне нужны только данные из 3-й таблицы, начинающиеся с URL-адрес обратной ссылки
На данный момент у меня есть:
private void ProcessHtmlFile(string HtmlFile, string theSite)
{
// read html file ...
string rawHtml = File.ReadAllText(HtmlFile);
HtmlAgilityPack.HtmlDocument doc = new HtmlAgilityPack.HtmlDocument();
doc.LoadHtml(rawHtml);
HtmlNodeCollection texts = doc.DocumentNode.SelectNodes("//table[2][@class='table table-condensed table-bordered table-hover']");
var rows = texts.Descendants("tr").ToList();
if (rows.Count() > 0) {
List<List<string>> rowValues = new List<List<string>>();
foreach (var row in rows)
{
List<string> currentRowValues = new List<string>();
foreach (var column in row.ChildNodes)
{
currentRowValues.Add(column.InnerText);
ListViewItem lv = new ListViewItem(column.InnerText);
lv.SubItems.Add(theSite);
listViewMain.Items.Add(lv);
}
rowValues.Add(currentRowValues);
}
}
}
private void BtnRun_Click(object sender, EventArgs e)
{
// load the files ...
string[] files = Directory.GetFiles(txtBoxFolderLocation.Text, "*.html");
foreach (string file in files)
{
ProcessHtmlFile(file.ToString(), Path.GetFileName(file.ToString()));
}
}
Так что этот код проходит через «отчеты»папку и ищет сырой HTML, чтобы извлечь необходимые данные, я ищу, чтобы извлечь:
URL-адрес обратной ссылки Целевой URL Текст привязки
Но я, кажется, не понимаю:
Изображение: https://i.imgur.com/xRxIlmz.png
Любая помощь будет оценена.