Я хочу сделать несколько НЛП на тексты песен, чтобы классифицировать настроение по десятилетиям. Теперь, учитывая заданную страницу текста для определенного исполнителя c, такого как The Smiths, у меня есть верхняя страница, отображающая все названия песен:
https://www.azlyrics.com/s/smiths.html
Катушка вокруг фонтана \ n
Вы получили все сейчас \ n
.....
Где каждый заголовок является ссылкой на реальную страницу лирики
https://www.azlyrics.com/lyrics/smiths/reelaroundthefountain.html https://www.azlyrics.com/lyrics/smiths/youvegoteverythingnow.html
Теперь, как бы go о срыве всех текстов с https://www.azlyrics.com/lyrics/smiths/XXX.html где XXX - заголовок на первой странице https://www.azlyrics.com/s/smiths.html.
Благодарен за любую помощь! И, как я написал, R или Python. Не имеет значения Желательно, чтобы каждая лирика сохранялась в отдельных * .txt файлах.
Я пробовал это:
from bs4 import BeautifulSoup
import requests
list =[title1, title2, .....]
for x in list:
url= "https://www.azlyrics.com/lyrics/smiths?x".format(str)
r=requests.get(url)
soup= BeautifulSoup(r.text)
for span in soup.findAll('span', attrs={'class': 'views-field views-field-created'}) :
print r.get_text()
Но не получилось. Это работает, если последующие страницы нумеруются.