Как извлечь большие объемы данных с сайтов, используя BeautifulSoup? - PullRequest
0 голосов
/ 05 февраля 2020

У меня есть идея, как извлечь ссылки и другие данные с сайтов, используя BeautifulSoup. Например, я извлекаю все ссылки с этого сайта https://finance.yahoo.com/. Тем не менее, он предоставляет мне очень ограниченный набор ссылок (статьи на сегодняшний день или просто совсем недавно), в то время как я хотел бы иметь ссылки на статьи в течение примерно месячного периода. Я имею в виду, например, получить все ссылки, начиная с 1 января.

    import requests
    from bs4 import BeautifulSoup
    url0 = 'https://finance.yahoo.com/'
    page0 = requests.get(url0)
    soup0=BeautifulSoup(page0.text, 'lxml')
    urls=[]
    for link in soup0.find_all('a'):
      if '/news' in link.get('href'):
      urls.append(link.get('href'))       
    full_urls=['https://finance.yahoo.com' + u for u in urls]
...