Как я могу загрузить все папки данных, доступные на веб-сайте? - PullRequest
0 голосов
/ 10 сентября 2018

Как правило, если веб-сайт отображает серию ссылок на данные, содержащие папки (например, электронные таблицы с экономическими данными), как я могу написать программу, которая идентифицирует все ссылки и загружает данные?

В частности, я пытаюсь загрузить все папки с 2012 по 2018 год на этом сайте https://www.ngdc.noaa.gov/eog/viirs/download_dnb_composites.html

Я попробовал предложенный ниже подход, но, похоже, ссылки на данные не загружаются.

my_target='https://www.ngdc.noaa.gov/eog/viirs/download_dnb_composites.html'


import requests
from bs4 import BeautifulSoup

r  = requests.get(my_target)
data = r.text
soup = BeautifulSoup(data)

links=[]
for link in soup.find_all('a'):
    links.append(link.get('href'))
    print(link.get('href'))

Среди всех URL-адресов, добавляемых к ссылкам, ни один не указывает на данные.

Наконец, даже если у меня есть нужные ссылки, как их можно использовать для загрузки файлов?

Большое спасибо! ;)

1 Ответ

0 голосов
/ 10 сентября 2018

Это типичная задача по очистке веб-страниц.

  • Используйте запросы для загрузки страницы
  • , затем анализируйте содержимое и извлекайте URL-адреса, используя beutifulsoup

  • теперь вы можете загружать файлы, используя их извлеченные URL и запросы

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...