Для начала, я новичок в Python.
Я хочу перебрать каждую ссылку на заголовок в моем списке статей, перейти по каждой ссылке на заголовок и затем почистить данные на каждой из этих веб-страниц.
Но проблема в том, что ссылки заголовка имеют адрес, такой как
https://qwerty.com/review/first-news-article/
https://qwerty.com/review/second-news-article/
https://qwerty.com/review/third-news-article/
Опять же, я хочу остановиться на каждой из ссылок, как эти , очистите некоторые данные, а затем снова go к следующей статье, перейдите по следующей ссылке в заголовке, очистите некоторые данные ... Итак, как я могу это сделать в Python?
Мне нужно сказать моему Программа, которую я хочу оставить на странице, на которую я зашел, щелкнув по названию статьи, а затем проанализировав данные с этой страницы ... но как человек, который не очень разбирается в разборе данных, я не знаю как.
Буду рад, если вы мне поможете, спасибо! :)
Мой код:
def scrape(request):
website_url = requests.get("https://loudwire.com/news/").text
soup = BeautifulSoup(website_url, "html.parser")
articles = []
excarr = []
img = []
mysrcset = []
links = soup.find_all('h2', {'class': None})
excerpt = soup.find_all('div', {'class': 'excerpt'})
myimg = soup.find_all('img', {'class': 'attachment-rc_post_thumbnail size-rc_post_thumbnail wp-post-image'})
for image in myimg:
img.append(image.get('src'))
srcset = image.get('srcset')
mysrcset.append(image.get('srcset'))
print(srcset)
for l in links:
print(l.text)
articles.append(l.text)
for e in excerpt:
print(e.text)
excarr.append(e.text)
mylist = zip(articles, excarr, img, mysrcset)
context = {'list': mylist}
return render(request, 'music/news.html', context)