Я пытаюсь вычистить ссылки из списка ссылок (все на разные страницы одного и того же сайта), но продолжаю работать ошибка 403. Вот пример ссылки, которую я пытаюсь очистить
https://www.spectatornews.com/page/6/?s=band
https://www.spectatornews.com/page/7/?s=band
и т.д.
Вот мой код:
getarticles = []
from bs4 import BeautifulSoup
import urllib.request
for i in listoflinks:
resp = urllib.request.urlopen(i)
soup = BeautifulSoup(resp, from_encoding=resp.info().get_param('charset'))
for link in soup.find_all('a', href=True):
getarticles.append(link['href'])
Я пытался использовать некоторые ответы из Ошибка HTTP 403 в Python 3 Web Scraping , но я не добился большого успеха. Я не уверен, правильно ли я применяю их ко всему списку ссылок. Я попытался использовать одно из приведенных ниже решений с помощью заголовка, но это возвращает ошибку HTTP 406: недопустимо
Вот мой код, который пытались исправить:
getarticles = []
from bs4 import BeautifulSoup
from bs4 import BeautifulSoup
import urllib.request
for i in listoflinks:
req=urllib.request.Request(i, headers={'User-Agent': 'Mozilla/5.0'})
resp = urllib.request.urlopen(req)
soup = BeautifulSoup(resp, from_encoding=resp.info().get_param('charset'))
for link in soup.find_all('a', href=True):
getarticles.append(link['href'])
Любая помощь очень ценится. Я очень новичок в этом, так что, насколько вы можете объяснить и помочь, это здорово. Я просто хотел бы собрать ссылки из моего списка сайтов!
Спасибо