В конечном итоге я пытаюсь создать программу, которая будет сканировать все внутренние ссылки сайта и очищать всю контактную информацию на сайте.Но прежде чем я смогу туда добраться, мне нужно выяснить, как сканировать строго внутренние ссылки.Код, который я вставил ниже, кажется, не работает вообще, и я не могу понять, почему.
TL; DR Хотите создать программу, которая сканирует и печатает только внутренние ссылки
import re, request
from bs4 import BeautifulSoup
def processUrl(url, domain, checkedUrls=[]):
if domain not in url:
return checkedUrls
if not url in checkedUrls:
try:
if 'text/html' in requests.head(url).headers['Content-Type']:
req=requests.get(url)
if req.status_code==200:
print(url)
checkedUrls.append(url)
html=BeautifulSoup(req.text,'html.parser')
pages=html.find_all('a')
for page in pages:
url=page.get('href')
processUrl(url)
except:
pass
return checkedUrls
checkedUrls=[]
domain = 'sentdex.com'
url='http://sentdex.com'
checkedUrls = processUrl(url, domain, checkedUrls)