Чтобы получить необходимые URL-адреса, связанные с твитами, вы можете попробовать следующий скрипт.Оказывается, что использование заголовков вместе с файлами cookie решает проблемы с перенаправлением.
import requests
from urllib.parse import urljoin
from bs4 import BeautifulSoup
url = "https://www.pastemagazine.com/search?t=tweets+of+the+week&m=Lists"
with requests.Session() as s:
res = s.get(url,headers={"User-Agent":"Mozilla/5.0"})
soup = BeautifulSoup(res.text,'lxml')
for item in set([urljoin(url,item.get("href")) for item in soup.select("ul.articles a[href*='tweets-of-the-week']")]):
print(item)
Или, чтобы сделать его еще проще, обновите следующие библиотеки:
pip3 install lxml --upgrade
pip3 install beautifulsoup4 --upgrade
А затем попробуйте:
with requests.Session() as s:
res = s.get(url,headers={"User-Agent":"Mozilla/5.0"})
soup = BeautifulSoup(res.text,'lxml')
for item in soup.select("a.noimage[href*='tweets-of-the-week']"):
print(urljoin(url,item.get("href")))