Question

Как правило, если веб-сайт отображает серию ссылок на данные, содержащие папки (например, электронные таблицы с экономическими данными), как я могу написать программу, которая идентифицирует все ссылки и загружает данные?

В частности, я пытаюсь загрузить все папки с 2012 по 2018 год на этом сайте https://www.ngdc.noaa.gov/eog/viirs/download_dnb_composites.html

Я попробовал предложенный ниже подход, но, похоже, ссылки на данные не загружаются.

my_target='https://www.ngdc.noaa.gov/eog/viirs/download_dnb_composites.html'


import requests
from bs4 import BeautifulSoup

r  = requests.get(my_target)
data = r.text
soup = BeautifulSoup(data)

links=[]
for link in soup.find_all('a'):
    links.append(link.get('href'))
    print(link.get('href'))

Среди всех URL-адресов, добавляемых к ссылкам, ни один не указывает на данные.

Наконец, даже если у меня есть нужные ссылки, как их можно использовать для загрузки файлов?

Большое спасибо! ;)

m9mhmdy · Answer 1 · 10 сентября 2018

Это типичная задача по очистке веб-страниц.

Используйте запросы для загрузки страницы
, затем анализируйте содержимое и извлекайте URL-адреса, используя beutifulsoup
теперь вы можете загружать файлы, используя их извлеченные URL и запросы

Как я могу загрузить все папки данных, доступные на веб-сайте?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как я могу загрузить все папки данных, доступные на веб-сайте?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов