Я пытаюсь разобрать html, используя beautifulsoup (вызывается с помощью lxml).На вложенных тегах я получаю повторяющийся текст
Я пытался пройти и подсчитывать только те теги, у которых нет дочерних элементов, но затем я теряю данные
, данные:
<div class="links">
<ul class="links inline">
<li class="comment_forbidden first last">
<span> to post comments</span>
</li>
</ul>
</div>
и работает:
soup = BeautifulSoup(file_info, features = "lxml")
soup.prettify().encode("utf-8")
for tag in soup.find_all(True):
if check_text(tag.text): #false on empty string/ all numbers
print (tag.text)
Я получаю "оставлять комментарии" 4 раза.Есть ли красивый способ получить результат только один раз?