Я использую Beautiful Soup для анализа html-кода, чтобы найти весь текст, который
1.Не содержится внутри каких-либо якорных элементов
Я пришел с этим кодом, который находит все ссылки внутри hrefно не наоборот.
Как я могу изменить этот код, чтобы с помощью Beautiful Soup получать только простой текст, чтобы я мог найти, заменить и изменить суп?
for a in soup.findAll('a',href=True):
print a['href']
РЕДАКТИРОВАТЬ:
Пример:
<html><body>
<div> <a href="www.test1.com/identify">test1</a> </div>
<div><br></div>
<div><a href="www.test2.com/identify">test2</a></div>
<div><br></div><div><br></div>
<div>
This should be identified
Identify me 1
Identify me 2
<p id="firstpara" align="center"> This paragraph should be<b> identified </b>.</p>
</div>
</body></html>
Выход:
This should be identified
Identify me 1
Identify me 2
This paragraph should be identified.
Iя делаю эту операцию, чтобы найти текст не в <a></a>
: затем найдите «Identify» и замените операцию на «Replaced»
Таким образом, конечный результат будет выглядеть так:
<html><body>
<div> <a href="www.test1.com/identify">test1</a> </div>
<div><br></div>
<div><a href="www.test2.com/identify">test2</a></div>
<div><br></div><div><br></div>
<div>
This should be identified
Repalced me 1
Replaced me 2
<p id="firstpara" align="center"> This paragraph should be<b> identified </b>.</p>
</div>
</body></html>
Спасибо за ваше время!