Разбор HTML-тегов br с помощью bs4 - PullRequest
0 голосов
/ 18 февраля 2019

Я хочу проанализировать HTML-страницы с множеством параллельных тегов
, таких как

<td>
  "a"
  <br>
  "b"
  <br>
  "c"
</td>

Я хочу хранить эти данные отдельно, как a = ["a"], b = ["b"], c = [" c "], без каких-либо тегов.

Каков наилучший способ для этого?

1 Ответ

0 голосов
/ 18 февраля 2019

Я не знаю, хотите ли вы одно и то же имя для ключа и значение для вашего dict результата.В любом случае, если вы хотите просто поместить данные между тегом <br> и сохранить их, вы можете сделать это:

#!/usr/bin/python3
# coding: utf8

from bs4 import BeautifulSoup

text = """<td>
  "a"
  <br>
  "b"
  <br>
  "c"
</td>"""

soup = BeautifulSoup(text, 'html.parser')
td = soup.find('td')
result = []
for val in td.get_text().replace(' ','').split('\n'):
    if val:
        result.append(val)

И тогда print(result) выдаст вам список данных ['"a"', '"b"', '"c"']

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...