Я работаю над шабером, который просматривает HTML-код и пытается очистить домены. Однако я не могу придумать кусок кода для соответствия доменам.
Домены Tor обычно имеют формат:
http://sitegoeshere.onion
или
https://sitegoeshere.onion
Я просто хочу сопоставить URL-адреса, которые будут содержаться на странице, в формате http://sitetexthere.onion или https://sitehereitis.onion. Это текст, который не может быть URL-адресом. Нужно просто вытащить URL.
Я уверен, что есть легкая или хорошая часть регулярного выражения, которая сделает это, но я не смог найти ее. Если кто-то в состоянии связать один или быстро раскрутить один, это было бы полезно. Большое спасибо.
session = requests.session()
session.proxies = {}
session.proxies['http'] = 'socks5h://localhost:9050'
session.proxies['https'] = 'socks5h://localhost:9050'
r = session.get('http://facebookcorewwwi.onion')
print(r.text)