Сравнение двух хостов сайта с симулированным контентом - PullRequest
0 голосов
/ 04 декабря 2018

Я пытаюсь создать тип почтового скребка, который очищает все подстраницы веб-сайта.

Таким образом, я бы получил все значения Href, и для проверки мне нужно выполнить несколько проверок, одна из которых заключается впроверьте новый URL-адрес с помощью URL-адреса хоста.

Первая проблема - , я заметил, что некоторые веб-сайты используют, например, https://www.exsmpl.com в качестве значения href или /subpage для перехода на следующую веб-страницу..

На многих страницах есть и другие ссылки, кроме ссылок на перенаправление, поэтому мне нужно их также разделить.

Поэтому, чтобы отделить их, мне нужно взять newUrl и сравнить его с HostUrl.

вот что я пробовал:

 //For each item inside the Newly found A-href Urls list
    foreach (var item in newATagUrl) {

         if (item.Contains("://")) {

               bool compareHostToFake = HostUrl.Equals(item);
               if (compareHostToFake) {
                       newSubpageUrls.Add(item);
                   } 
    }

Проблема с этим методом равно в том, что мы hard сравниваем эти два URL, так что еслимой хост - example.com по сравнению с example.com/subpage, тогда он получит ложное значение, которое нам не нужно.

Как насчет contains, тогда мы встретимся с другимпроблема, так как мы хотим добавить что-то вроде example.com/subpage что делать, если шОн наталкивается на ссылку facebook.com/ex.ample или, возможно, даже на ссылку GitHub, которая может содержать , что.

Вскоре:

Мой список тегов обновляется тегами A, найденными на -> hosturl.com :

  1. https://www.fb.com/host.party
  2. https://www.hosturl.com/subpage
  3. https://www.google.com/
  4. index.html
  5. / contact.php

Затем я хочу, чтобы мой сортировщик отсортировал их в новый список подстраниц -> newSubPageList :

  1. https://www.hosturl.com/subpage
  2. index.html
  3. / contact.php

Единственная часть, которая имеет значение, это https: // one другие, которые я в основном разобрался.

Большая проблема в Я не могу понять, как я могу расшифровать hosturl с помощью fakeUrl.

Дополнительно: URL-адрес конечной подстраницы, к которому мы можем добавить: hosturl.com/subpage https:// часть и www не нужны, я могу добавить их позже, это действительно косая черта .com/subpage после .com части, которая требуетловли.

...