Я хочу очистить все URL / текстовое содержимое и сканировать на указанных c доменах.
Я видел метод очистки URL-адресов ( получение ссылок с веб-страницы с использованием python и BeautifulSoup )
Я также попробовал следующий код пребывания на указать c доменов, но, похоже, он не работает полностью.
domains = ["newyorktimes.com", etc]
p = urlparse(url)
print(p, p.hostname)
if p.hostname in domains:
pass
else:
return []
#do something with p
Моя главная проблема - убедиться, что сканер остается в указанном домене, но я не уверен, как это сделать, когда URL могут иметь разные пути / фрагменты. Я знаю, как почистить URL с данного сайта. Я открыт для использования BeautifulSoup, l xml, scrapy, et c
Этот вопрос может быть слишком широким, но я попытался найти информацию о сканировании в указанных c доменах, но Я не могу найти слишком релевантные материалы: /
Любая помощь / ресурсы будут высоко оценены!
Спасибо