Ну, во-первых, вам нужно получить содержимое веб-страницы, по которой вы хотите выполнить поиск по ссылкам. Я настоятельно рекомендую использовать запросы , простую HTTP-библиотеку для Python:
import requests
response = request.get(https://www.stubhub.com/new-york-rangers-tickets/performer/2764/)
Этот указанный c URL-адрес по некоторым причинам требует заголовка User-Agent, поэтому вы должны отправить один по запросу:
url = 'https://www.stubhub.com/new-york-rangers-tickets/performer/2764/'
user_agent = 'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:72.0) Gecko/20100101 Firefox/72.0'
response = requests.get(url, headers={'User-Agent':user_agent})
Затем вы можете начать анализировать содержимое страницы, используя beautifulsoup4 . Вы можете использовать метод find_all
, передавая скомпилированное регулярное выражение в качестве параметра text
, чтобы найти все теги a
, которые содержат определенный текст:
from bs4 import BeautifulSoup
import re
soup = BeautifulSoup(response.content, "html.parser")
rangers_anchor_tags = soup.find_all("a", text=re.compile(r".*\bNew York Rangers at\b.*")
urls = [anchor["href"] for anchor in rangers_anchor_tags]
urls
, тогда будет список URL-адресов, в которых соответствующий внутренний текст тега привязки содержит соответствующую строку.