Моя задача - найти тело статьи <div id="bodyContent">
и в ней вычислить длину максимальной последовательности ссылок, между которыми нет других открытых или закрытых тегов. Например:
<p>
<span><a></a></span>
**<a></a>
<a></a>**
</p>
- в строке 2 ссылки, потому что закрывающий интервал прерывает последовательность.
<p>
**<a><span></span></a>
<a></a>
<a></a>**
</p
- и есть 3 ссылки подсерии, потому что span находится внутри ссылки, а не между ссылками.
Для ее решения я использую Beautifulsoup и Python.
Код:
import requests
from bs4 import BeautifulSoup
html = requests.get('https://en.wikipedia.org/wiki/Stone_Age')
soup = BeautifulSoup(html.text, "lxml")
body = soup.find(id="bodyContent")
# get first link
first_link = body.a
# find all links that are in the same level
first_link.find_next_siblings('a')
Как перейти по следующим ссылкам?
С наилучшими пожеланиями!