Я пытаюсь прочитать ссылки со страницы, но получаю больше ссылок, чем хотелось. Что я делаю:
http = httplib2.Http()
status, page= http.request('page address')
soup = BeautifulSoup(page,'html.parser', parse_only=SoupStrainer('a'))
For link in soup:
if link.has_attr('href'):
print(link['href'])
Я изучил страницу и заметил, что она состоит из двух основных компонентов:
<div id="main">
<aside id="secondary">
Ссылки, которые мне не нужны, исходят из того, что внутри <aside id="secondary">
. Какой самый простой способ получать ссылки только с <div id="main">
?
Спасибо