У меня установлена Beautifulsoup4 (4.9.0), и я пытаюсь проанализировать html. Python версия 3.7
Я собираю данные из некоторых таблиц, которые разбиты по ячейкам <br>
внутри ячеек, например:
<td>some text<br>some more text</td>
Однако .get_text()
, похоже, игнорирует разрывы строк и выводите все int в одну строку:
html = '<td>some text<br>some more text</td>'
soup = BeautifulSoup(html, features='html.parser')
print(soup)
>> <td>some text<br/>some more text</td>
print(soup.get_text())
>> some textsome more text
<br>
преобразуется в <br/>
, но я не знаю много HTML, поэтому не уверен, что это важно.
Желаемый результат
Список строк, которые находятся между каждым переводом строки. Я думал о том, чтобы использовать метод .get_text()
, а затем .split()
полученную строку с помощью символа разрыва строки, например:
html = '<td>some text<br>some more text</td>'
soup = BeautifulSoup(html, features='html.parser')
strings = soup.get_text().split('?')
>> ['some text', 'some more text']
Кто-нибудь знает, как заставить get_text()
распознавать разрывы строк, и что за ?
должно быть? Я подумал, может быть, заменить разрывы строк однозначным символом / строкой, которые не будут проигнорированы, и разделены этим. Буду признателен за более элегантные решения!
Спасибо