Несколько дней назад я получил разрешение на проведение проекта по анализу метаданных университета для компании и хотел начать тестирование сегодня. Я работал с парой инструментов, которые я сделал в python, используя BeautifulSoup, и понял, что ни один из них не работает. Они переходят по указанному URL-адресу, открывая его, а затем не падая, как следует. Я зашел на сайт и понял, что они не используют теги <a>
для указания ссылок с HREF, но они используют этот
<link rel="alternate" type="redacted" title="<redacted>" » ICal Feed" href="<link>
Что я должен сделать, чтобы изменить это? Если честно, я не совсем уверен, что это за линия на самом деле. Я хорошо разбираюсь в Python, но не так много HTML.
Этот сегмент ниже является кодом, где я также ищу ссылки на паука. Затем я добавляю их к объекту deque python.
soup = BeautifulSoup(response.text, 'lxml')
#determine spidering links
for anchor in soup.find_all("link"):
link = anchor.attrs["href"] if "href" in anchor.attrs and anchor.attrs["href"].find("mailto") == -1 and anchor.attrs["href"].find("tel") == -1 and anchor.attrs["href"].find("#") == -1 else ''
if link.startswith('/'):
link = base_url + link
elif not link.startswith('http'):
link = path + link
if not link in new_urls and not link in processed_urls and not link.find(start) == -1:
new_urls.append(link)