Как я могу разобрать все ссылки в html, которые содержат ссылку на файл * .rar и загрузить все эти файлы?
Есть 3 ссылки из html, которые мне нужно проанализировать:
<a class="zlink" href="http://example.com/lv/20180530/L10.rar">
<a class="zlink" href="http://example.com/est/20180530/ES10.rar">
<a class="zlink" href="http://example.com/pol/20180530/PL10.rar">
HTML состоит из файла другого типа, например favicon или hmtl.
import requests
import urllib
import random
import threading
from BeautifulSoup import BeautifulSoup
user_agent_list = [
#Windows
'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:60.0) Gecko/20100101 Firefox/60.0',
#Linux
'Mozilla/5.0 (X11; Ubuntu; Linux i686; rv:60.0) Gecko/20100101 Firefox/60.0',
]
url = 'http://example.com'
#Using Requests
# establishing session
s = requests.session()
user_agent = random.choice(user_agent_list)
headers = {
'login_username': 'user',
'login_password': 'pass',
'User-Agent': user_agent}
response = requests.get(url,headers=headers)
print(response.content)
soup = BeautifulSoup(response.content)
for link in soup.findAll('a', attrs={'href': re.compile("$rar")})
r = requests.get('href')