Я пытаюсь почистить URL-адреса с новостного сайта. В частности, это URL-адреса новостных статей, перечисленных в результатах поиска для определенного c поискового запроса.
Я новичок в BeautifulSoup и не знаю, как выборочно очистить только те ссылки, которые Отнесите меня к статье (когда я пытаюсь отыскать для детей hrefs в тегах div, я просто получаю пустой набор, а когда я очищаю теги, я получаю гораздо больше URL, чем хочу.
Есть мысли?
Вот ссылка на веб-страницу: https://www.thenational.ae/search?q=aramco
Вот код, который я использую.
import requests, random, re
from bs4 import BeautifulSoup as bs
url = "https://www.thenational.ae/search?q=aramco"
webpage = requests.get(url)
soup = bs(webpage.text, "html.parser")
for link in soup.find_all('h1'):
print(link.get('href'))