Как правило, если веб-сайт отображает серию ссылок на данные, содержащие папки (например, электронные таблицы с экономическими данными), как я могу написать программу, которая идентифицирует все ссылки и загружает данные?
В частности, я пытаюсь загрузить все папки с 2012 по 2018 год на этом сайте https://www.ngdc.noaa.gov/eog/viirs/download_dnb_composites.html
Я попробовал предложенный ниже подход, но, похоже, ссылки на данные не загружаются.
my_target='https://www.ngdc.noaa.gov/eog/viirs/download_dnb_composites.html'
import requests
from bs4 import BeautifulSoup
r = requests.get(my_target)
data = r.text
soup = BeautifulSoup(data)
links=[]
for link in soup.find_all('a'):
links.append(link.get('href'))
print(link.get('href'))
Среди всех URL-адресов, добавляемых к ссылкам, ни один не указывает на данные.
Наконец, даже если у меня есть нужные ссылки, как их можно использовать для загрузки файлов?
Большое спасибо! ;)