Извлечение таблицы данных - PullRequest
0 голосов
/ 07 ноября 2019

То, что я пытаюсь сделать, - это просмотреть кучу пользовательских отчетов .html, затем добавить определенные биты данных в просмотр списка, я частично там.

Пример отчета: (https://www.pet -merch.com / sasquatchdatabase.com.html ) - извините за URL, я не знаю, как еще разместить пример.

В этом отчете 4 таблицы,мне нужны только данные из 3-й таблицы, начинающиеся с URL-адрес обратной ссылки

На данный момент у меня есть:

        private void ProcessHtmlFile(string HtmlFile, string theSite)
        {
            // read html file ...
            string rawHtml = File.ReadAllText(HtmlFile);

            HtmlAgilityPack.HtmlDocument doc = new HtmlAgilityPack.HtmlDocument();
            doc.LoadHtml(rawHtml);
            HtmlNodeCollection texts = doc.DocumentNode.SelectNodes("//table[2][@class='table table-condensed table-bordered table-hover']");
            var rows = texts.Descendants("tr").ToList();

            if (rows.Count() > 0) {
                List<List<string>> rowValues = new List<List<string>>();

                foreach (var row in rows)
                {
                    List<string> currentRowValues = new List<string>();
                    foreach (var column in row.ChildNodes)
                    {
                        currentRowValues.Add(column.InnerText);
                        ListViewItem lv = new ListViewItem(column.InnerText);
                        lv.SubItems.Add(theSite);
                        listViewMain.Items.Add(lv);

                    }
                    rowValues.Add(currentRowValues);
                }
            }

        }

        private void BtnRun_Click(object sender, EventArgs e)
        {
            // load the files ...
            string[] files = Directory.GetFiles(txtBoxFolderLocation.Text, "*.html");
            foreach (string file in files)
            {
                ProcessHtmlFile(file.ToString(), Path.GetFileName(file.ToString()));
            }
        }

Так что этот код проходит через «отчеты»папку и ищет сырой HTML, чтобы извлечь необходимые данные, я ищу, чтобы извлечь:

URL-адрес обратной ссылки Целевой URL Текст привязки

Но я, кажется, не понимаю:

Изображение: https://i.imgur.com/xRxIlmz.png

Любая помощь будет оценена.

...