Я пытаюсь создать тип почтового скребка, который очищает все подстраницы веб-сайта.
Таким образом, я бы получил все значения Href, и для проверки мне нужно выполнить несколько проверок, одна из которых заключается впроверьте новый URL-адрес с помощью URL-адреса хоста.
Первая проблема - , я заметил, что некоторые веб-сайты используют, например, https://www.exsmpl.com
в качестве значения href или /subpage
для перехода на следующую веб-страницу..
На многих страницах есть и другие ссылки, кроме ссылок на перенаправление, поэтому мне нужно их также разделить.
Поэтому, чтобы отделить их, мне нужно взять newUrl и сравнить его с HostUrl.
вот что я пробовал:
//For each item inside the Newly found A-href Urls list
foreach (var item in newATagUrl) {
if (item.Contains("://")) {
bool compareHostToFake = HostUrl.Equals(item);
if (compareHostToFake) {
newSubpageUrls.Add(item);
}
}
Проблема с этим методом равно в том, что мы hard сравниваем эти два URL, так что еслимой хост - example.com
по сравнению с example.com/subpage
, тогда он получит ложное значение, которое нам не нужно.
Как насчет contains
, тогда мы встретимся с другимпроблема, так как мы хотим добавить что-то вроде example.com/subpage
что делать, если шОн наталкивается на ссылку facebook.com/ex.ample
или, возможно, даже на ссылку GitHub, которая может содержать , что.
Вскоре:
Мой список тегов обновляется тегами A, найденными на -> hosturl.com :
- https://www.fb.com/host.party
- https://www.hosturl.com/subpage
- https://www.google.com/
- index.html
- / contact.php
Затем я хочу, чтобы мой сортировщик отсортировал их в новый список подстраниц -> newSubPageList :
- https://www.hosturl.com/subpage
- index.html
- / contact.php
Единственная часть, которая имеет значение, это https: // one другие, которые я в основном разобрался.
Большая проблема в Я не могу понять, как я могу расшифровать hosturl с помощью fakeUrl.
Дополнительно: URL-адрес конечной подстраницы, к которому мы можем добавить: hosturl.com/subpage
https://
часть и www не нужны, я могу добавить их позже, это действительно косая черта .com/subpage
после .com части, которая требуетловли.