Я пытаюсь собрать список гиперссылок (URL-адрес, на который он ссылается), используя WatIn. Я пытался использовать:
foreach (Link l in myIE.Links)
{
Links.Add(l.ToString());
}
string LinksCSV = string.Join(",", Links.ToArray());
richTextBox2.Text = LinksCSV;
Я пытаюсь перечислить все гиперссылки в моем richtextbox, однако приведенное выше вернуло имя гиперссылки, поэтому снова и снова показывалось «Ссылка».
Кроме того, мне нужно перечислить только URL / ссылки, которые содержат «webpage.php? Id =», а затем после этого имеют уникальный номер. Как вернуть очищенные URL-адреса, отфильтрованные только по тем, которые содержат "webpage.php? Id ="?
UPDATE:
Вот обновленный тест, который работает на других сайтах, но не на моем. Приведенный ниже код работает.
using System;
using System.Collections.Generic;
using System.Linq;
using System.Text;
using WatiN.Core;
namespace ScrapeTest
{
class Program
{
[STAThread]
static void Main(string[] args)
{
IE ie = new IE();
ie.GoTo("http://www.freesound.org/browse/tags/organ/");
foreach (var currLink in ie.Links)
{
if (currLink.Url.Contains("sounds"))
{
Console.WriteLine("contains Edit in the link Url" + currLink.Url);
}
}
Console.ReadLine();
}
}
}
Код кажется правильным, однако проблема заключается в его взаимодействии с моим конкретным URL-адресом и гиперссылками. Сайт и гиперссылки, которые я после, содержат конфиденциальную информацию, отсюда и их упущение.
Использование моих сайтов Главная страница http://website.com скрипт выполняется, поэтому возникла проблема с уникальной страницей, которую я отправляю на http://website.com/data.php?search=%22%22&cat=0
Может ли это быть из-за .php в URL?
Также URL-адреса сохраняются на странице, как показано ниже, если это помогает.
td class="alt2">
<a align="center" href="data.php?id=111111">EDIT</a>
/td>
ОБНОВЛЕНИЕ и РЕШЕНИЕ. По какой-то причине проблема возникает, когда я пытаюсь использовать метод Url.Contains. То, что я в итоге сделал, - это сохранение каждого соскобленного URL-адреса в списке, и построчно, по мере необходимости, тестирую мой список, чтобы вернуть требуемые URL-адреса. Большое спасибо за вашу помощь.