Нужна помощь в определении ссылок для захвата на веб-сайте (тестирование проникновения) - PullRequest
0 голосов
/ 23 марта 2019

Несколько дней назад я получил разрешение на проведение проекта по анализу метаданных университета для компании и хотел начать тестирование сегодня. Я работал с парой инструментов, которые я сделал в python, используя BeautifulSoup, и понял, что ни один из них не работает. Они переходят по указанному URL-адресу, открывая его, а затем не падая, как следует. Я зашел на сайт и понял, что они не используют теги <a> для указания ссылок с HREF, но они используют этот

<link rel="alternate" type="redacted" title="<redacted>" &raquo; ICal Feed" href="<link>

Что я должен сделать, чтобы изменить это? Если честно, я не совсем уверен, что это за линия на самом деле. Я хорошо разбираюсь в Python, но не так много HTML.

Этот сегмент ниже является кодом, где я также ищу ссылки на паука. Затем я добавляю их к объекту deque python.

    soup = BeautifulSoup(response.text, 'lxml')

    #determine spidering links
    for anchor in soup.find_all("link"):
        link = anchor.attrs["href"] if "href" in anchor.attrs and anchor.attrs["href"].find("mailto") == -1 and anchor.attrs["href"].find("tel") == -1 and anchor.attrs["href"].find("#") == -1 else ''

        if link.startswith('/'):
            link = base_url + link
        elif not link.startswith('http'):
            link = path + link
        if not link in new_urls and not link in processed_urls and not link.find(start) == -1:
            new_urls.append(link)

1 Ответ

0 голосов
/ 23 марта 2019

Чтобы получить ссылки из вашего примера html:

tag = soup.findAll('link')

[i["href"] for i in tag]
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...