Мне нужно извлечь текст с веб-сайта с границей текста, т.е. заключенной в тег.
Я хочу отфильтровать все нежелательные теги, такие как
'style', 'script', 'head', 'title', 'meta', '[document]'
, и получить текст изостальные теги
Например:
HTML
<script>console.log('hello');</script>
<span>Header</span>
<p>Some paragraph</p>
ВЫХОД
['Header', 'Some paragraph']
Я знаю, что могу сделать
soup.findall('span', text=True)
и т. Д. Для p
и других тегов, содержащих текст
Это неэффективно, и поэтому мне нужна альтернатива для фильтрациивсе ненужные элементы, а затем получить текст.