Сканирование веб-страниц Сканирование PDF-документа с URL-адресом, который изменяется на веб-сайте с помощью Python - PullRequest
0 голосов
/ 03 октября 2019
import os
import requests
from bs4 import BeautifulSoup


desktop = os.path.expanduser("~/Desktop")

url = 'https://www.ici.org/research/stats'

response = requests.get(url)

soup = BeautifulSoup(response.text, 'html.parser')
excel_files = soup.select('a[href*=xls]')

for each in excel_files:
    if 'Supplement: Worldwide Public Tables' in each.text:
        link = 'https://www.ici.org' + each['href']

        filename = each['href'].split('/')[-1]

        if os.path.isfile(desktop + '/' + filename):
            print ('*** File already exists: %s ***' %filename)
            continue

        resp = requests.get(link)
        output = open(desktop + '/' + filename, 'wb')
        output.write(resp.content)
        output.close()
        print ('Saved: %s' %filename)

Я новичок в изучении веб-страниц и хочу автоматически загрузить из списка веб-сайтов документ в формате PDF.

Этот документ обновляется ежемесячно, а URL-адрес изменяется на веб-сайте. например, https://fundcentres.lgim.com/fund-centre/OEIC/Sterling-Liquidity-Fund Я хочу загрузить документ в формате «фактов» с вышеуказанного веб-сайта. Я думаю, что идеальным способом был бы код, чтобы нажать на информационный листок и сохранить его в месте на диске. Сложность в том, что URL меняется!

...