Я удалил html со страницы списка рассылки, как это:
<ul>
<li> <b>Messages sorted by:</b>
<a href="thread.html#start">[ thread ]</a>
<a href="author.html#start">[ author ]</a>
<a href="date.html#start">[ date ]</a>
<li><b><a href="https://mail.kde.org/mailman/listinfo/okular-devel">More info on this list...
</a></b></li>
</li></ul>,
<ul>
<li><a href="000006.html">[Okular-devel] "why okular is cool and what's our focus" text
</a><a name="6"> </a>
<i>Albert Astals Cid
</i>
<li><a href="000000.html">[Okular-devel] playground/graphics/okular
</a><a name="0"> </a>
<i>Tobias Koenig
</i>
<li><a href="000001.html">[Okular-devel] playground/graphics/okular
</a><a name="1"> </a>
<i>Tobias Koenig
</i>
<li><a href="000004.html">[Okular-devel] Rotation & object rects
</a><a name="4"> </a>
<i>Pino Toscano
</i>
<li><a href="000005.html">[Okular-devel] Rotation & object rects
</a><a name="5"> </a>
<i>Albert Astals Cid
</i>
<li><a href="000002.html">[Okular-devel] Slow painting on QImage
</a><a name="2"> </a>
<i>Tobias Koenig
</i>
<li><a href="000003.html">[Okular-devel] Slow painting on QImage
</a><a name="3"> </a>
<i>Albert Astals Cid
</i>
</li></li></li></li></li></li></li></ul>,
<ul>
<li> <b>Messages sorted by:</b>
<a href="thread.html#start">[ thread ]</a>
<a href="author.html#start">[ author ]</a>
<a href="date.html#start">[ date ]</a>
<li><b><a href="https://mail.kde.org/mailman/listinfo/okular-devel">More info on this list...
</a></b></li>
</li></ul>
Вы можете видеть, что есть три <ul>
элемента с элементами li, и я хочу получить только элементы li только второго <ul>
элемента, которые имеют <LI>
в верхнем регистре, и вывод должен быть таким:
[Okular-devel] "why okular is cool and what's our focus" text - 000006.html
[Okular-devel] playground/graphics/okular - 000000.html
[Okular-devel] playground/graphics/okular - 000001.html
[Okular-devel] Rotation & object rects - 000004.html
and so on...
Формат - это текст элемента <LI>
и связанная ссылка <href>
. Мой код дает li всех элементов <ul>
, а вывод повторяется 2-3 раза, и я не могу извлечь href вместе с ними -
Мой код:
for ele in soup.find_all('ul'):
for litag in ele.find_all('li'):
for link in litag.find_all('href'):
print(litag.text + '-' + link)
Это не дает мне желаемый результат. Что мне делать?