Итак, у меня есть куча ссылок, которые я хочу скачать с помощью wget и bs4, и прежде чем использовать wget для загрузки, мне нужно почистить ссылку для скачивания с веб-сайта. Но у меня возникла проблема, когда он находит первую фактическую ссылку для скачивания, а не вторую.
Код:
from bs4 import BeautifulSoup
import requests
import os
links = open('links.txt', 'r')
count = 0
while True:
count += 1
line = links.readline()
if not line:
break
print("Line{}: {}".format(count, line.strip()))
source = requests.get(line)
soup = BeautifulSoup(source.text,'lxml')
Download = soup.find(id="download-url", href=True)
print(Download.get('href'))
И вывод:
Line1: (Download Link Here)
(Download URL Here)
Line2: (Download Link Here)
Traceback (most recent call last):
File "D:\Downloads\Downloader\Downloads\download.py", line 19, in <module>
print(Download.get('href'))
AttributeError: 'NoneType' object has no attribute 'get'