Скачивание всего pdf файла с сайта с Python 3 ч.2 - PullRequest
0 голосов
/ 21 февраля 2020

Я переписал программу, чтобы она работала после перенаправления URL-адреса, но я не могу сохранить файл, который он видит в папке загрузок. Это веб-сайт https://fraser.stlouisfed.org/title/1339#518552

       from bs4 import BeautifulSoup
       import urllib3
       urllib3.disable_warnings(urllib3.exceptions.InsecureRequestWarning)
       import re
       from urllib import request
       import requests
       import time

       #access the website
       http = urllib3.PoolManager()
       url='https://fraser.stlouisfed.org/title/1339#518552/title/1339/item/558539'
       response = http.request('GET', url)
       soup = BeautifulSoup(response.data)

       download_links=[]
       #i found the part of the name files share and tried to append with that
       for link in soup.find_all('a', attrs={'href': re.compile("/title/1339/item/5")}):
       download_links.append('https://fraser.stlouisfed.org/'+link.get('href'))

       # this part deals with redirected page
       #I am trying to make it work for only one link first.
       response_two= http.request('GET', download_links[1])
       soup = BeautifulSoup(response_two.data)


       for link in soup.find_all('a', attrs={'href': re.compile("/files/docs/publications/cfc/")}):
             urlfin="https://fraser.stlouisfed.org/" + link['href']
             request.urlretrieve(urlfin)

Программа запускается, но ничего не загружается. Кто-нибудь может помочь найти проблему?

1 Ответ

0 голосов
/ 22 февраля 2020

Просто выберите имя файла для потоковой передачи.

import urllib.request
urllib.request.urlretrieve(urlfin, "test.pdf")
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...