Мне нужно почистить имена журналистов и журналы с этого сайта:
https://www.politicasufacebook.it/giornalisti/
Что мне нужно, так это получить конкретно <a href
информация (имя журналиста) и < span
(название газеты).
Например, Андреа Сканци :
<a href="https://www.facebook.com/andreascanzi74/" style="color:#003060" target="_blank">Andrea Scanzi</a>
и Il Fatto Quotidiano
<span style="font-size:13px;line-height:25px"> Il Fatto Quotidiano</span>
Я написал следующий
with requests.Session() as s: # use session object for efficiency of tcp re-use
s.headers = {'User-Agent': 'Mozilla/5.0'}
r = s.get('https://www.politicasufacebook.it/giornalisti/')
soup = bs(r.content, 'lxml')
, но я не знаю, как продолжить, чтобы извлечь такую информацию.
Любая помощь и предложения будут более чем приветствоваться. Спасибо