Для проекта класса я работаю над извлечением всех ссылок на веб-странице. Это то, что я имею до сих пор.
from bs4 import BeautifulSoup, SoupStrainer
with open("input.htm") as inputFile:
soup = BeautifulSoup(inputFile)
outputFile=open('output.txt', 'w')
for link in soup.find_all('a', href=True):
outputFile.write(str(link)+'\n')
outputFile.close()
Это работает очень хорошо.
Вот сложность: для каждого элемента <a>
мой проект требует, чтобы я знал всю "древовидную структуру" "к текущей ссылке. Другими словами, я хотел бы знать все прецедентные элементы, начиная с элемента <body>
. И class
и id
по пути.
Как страница навигации в Windows проводнике. Или панель навигации в инструменте проверки элементов во многих браузерах.
Например, если вы посмотрите страницу Библии в Википедии и ссылку на страницу Википедии для Талмуда, следующий «путь» - это то, что я ». ищу.
<body class="mediawiki ...>
<div id="content" class="mw-body" role="main">
<div id="bodyContent" class="mw-body-content">
<div id="mw-content-text" ...>
<div class="mw-parser-output">
<div role="navigation" ...>
<table class="nowraplinks ...>
<tbody>
<td class="navbox-list ...>
<div style="padding:0em 0.25em">
<ul>
<li>
<a href="/wiki/Talmud"
Спасибо большое. -Maureen