лучший способ отфильтровать теги <img>при сканировании веб-страниц? - PullRequest
0 голосов
/ 26 мая 2020

Я использую beautifulsoup для некоторого поиска в Интернете и хочу знать, как лучше всего отфильтровать теги img из любых записей таблицы, которые я очищаю, чтобы результат фильтрации атрибута td.text в этом фрагменте кода возвращал только полезный текст

<tr>
  <td>
    usefultext
    <img src='imgsrc' alt='*'>
  </td>
</tr>

1 Ответ

0 голосов
/ 26 мая 2020

вы можете создать суп, useful_text и как только суп был создан, поскольку документация объяснит , вы можете go вверх и вниз по дереву, выбрав tags, в этом случае Я выбрал тег td, и если в нем несколько строк, я буду использовать функцию get_text().

from bs4 import BeautifulSoup, SoupStrainer

html = '''<tr>
  <td>
    usefultext
    <img src='imgsrc' alt='*'>
  </td>
</tr>'''

useful_text = BeautifulSoup(html)
useful_text.td.get_text()
[out]:

'\n    usefultext\n    \n'

Если у вас несколько тегов td, вы захотите использовать функцию next_siblings.

Очень рекомендую прочитать документацию и поиграться.

...