У меня есть идея, как извлечь ссылки и другие данные с сайтов, используя BeautifulSoup. Например, я извлекаю все ссылки с этого сайта https://finance.yahoo.com/. Тем не менее, он предоставляет мне очень ограниченный набор ссылок (статьи на сегодняшний день или просто совсем недавно), в то время как я хотел бы иметь ссылки на статьи в течение примерно месячного периода. Я имею в виду, например, получить все ссылки, начиная с 1 января.
import requests
from bs4 import BeautifulSoup
url0 = 'https://finance.yahoo.com/'
page0 = requests.get(url0)
soup0=BeautifulSoup(page0.text, 'lxml')
urls=[]
for link in soup0.find_all('a'):
if '/news' in link.get('href'):
urls.append(link.get('href'))
full_urls=['https://finance.yahoo.com' + u for u in urls]