Как я могу получить href ссылки из HTML и скачать файлы с помощью Python? - PullRequest
0 голосов
/ 31 мая 2018

Как я могу разобрать все ссылки в html, которые содержат ссылку на файл * .rar и загрузить все эти файлы?

Есть 3 ссылки из html, которые мне нужно проанализировать:

<a class="zlink" href="http://example.com/lv/20180530/L10.rar">
<a class="zlink" href="http://example.com/est/20180530/ES10.rar">
<a class="zlink" href="http://example.com/pol/20180530/PL10.rar">

HTML состоит из файла другого типа, например favicon или hmtl.

import requests
import urllib
import random
import threading
from BeautifulSoup import BeautifulSoup

user_agent_list = [
    #Windows
    'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:60.0) Gecko/20100101 Firefox/60.0',
    #Linux
    'Mozilla/5.0 (X11; Ubuntu; Linux i686; rv:60.0) Gecko/20100101 Firefox/60.0',
]
url = 'http://example.com'

#Using Requests 
# establishing session
s = requests.session() 
user_agent = random.choice(user_agent_list)
headers = {
    'login_username': 'user',
    'login_password': 'pass',
    'User-Agent': user_agent}
response = requests.get(url,headers=headers)
print(response.content)

soup = BeautifulSoup(response.content)
for link in soup.findAll('a', attrs={'href': re.compile("$rar")})
    r = requests.get('href')    
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...